頂點光電子商城2025年8月18日消息:近日,華為推出的UCM(推理記憶數據管理器)技術通過軟件架構創新顯著降低了對HBM(高帶寬內存)的依賴,同時提升了AI推理效率并降低了成本。
UCM構建了HBM→DRAM→SSD的三級存儲體系:HBM存儲實時高頻訪問的極熱數據,滿足低時延需求(如首Token響應)。DRAM存儲短期較熱數據,平衡性能與成本。SSD作為外置專業存儲,承載低頻數據,突破顯存容量限制,支持超長序列推理(如100萬+ Token的金融報告分析)。

根據數據熱度在HBM、DRAM、SSD間自動流動,結合稀疏注意力算法優化計算,使長序列場景下TPS(每秒處理Token數)提升2-22倍。全局前綴緩存技術,在多輪對話、RAG知識檢索等場景中直接調用已緩存的KV數據,避免重復計算,首Token時延最大降低90%(從50-100ms縮短至5ms以內)。超長序列卸載將超長序列的KV Cache分層卸載至外置存儲,突破模型和資源限制,實現推理上下文窗口10倍級擴展。
在硬件受限的背景下,UCM通過軟件定義存儲的方式,在昇騰910B等國產算力上實現等效甚至超越英偉達H100的推理體驗,首Token時延5-10ms、TPS 200 tokens/s的指標已達到海外主流模型水平。
UCM的開源與銀聯案例形成“技術-場景-數據”閉環,吸引超50家生態伙伴加入,推動國產推理生態從“碎片化”走向“系統化”,尤其在金融、醫療等敏感領域成為“去海外依賴”的首選方案。
UCM標志AI推理從“拼硬件”轉向“拼協同”,通過算法(稀疏注意力)、框架(動態KV卸載)、存儲(直通加速)的深度耦合,實現“1+1+1>3”的效果,為國產大模型差異化競爭提供底層支撐。
鄂公網安備 42011502001385號 鄂ICP備2021012849號