頂點光電子商城2025年8月18日消息:近日,華為推出的UCM(推理記憶數(shù)據(jù)管理器)技術(shù)通過軟件架構(gòu)創(chuàng)新顯著降低了對HBM(高帶寬內(nèi)存)的依賴,同時提升了AI推理效率并降低了成本。
UCM構(gòu)建了HBM→DRAM→SSD的三級存儲體系:HBM存儲實時高頻訪問的極熱數(shù)據(jù),滿足低時延需求(如首Token響應(yīng))。DRAM存儲短期較熱數(shù)據(jù),平衡性能與成本。SSD作為外置專業(yè)存儲,承載低頻數(shù)據(jù),突破顯存容量限制,支持超長序列推理(如100萬+ Token的金融報告分析)。
根據(jù)數(shù)據(jù)熱度在HBM、DRAM、SSD間自動流動,結(jié)合稀疏注意力算法優(yōu)化計算,使長序列場景下TPS(每秒處理Token數(shù))提升2-22倍。全局前綴緩存技術(shù),在多輪對話、RAG知識檢索等場景中直接調(diào)用已緩存的KV數(shù)據(jù),避免重復(fù)計算,首Token時延最大降低90%(從50-100ms縮短至5ms以內(nèi))。超長序列卸載將超長序列的KV Cache分層卸載至外置存儲,突破模型和資源限制,實現(xiàn)推理上下文窗口10倍級擴展。
在硬件受限的背景下,UCM通過軟件定義存儲的方式,在昇騰910B等國產(chǎn)算力上實現(xiàn)等效甚至超越英偉達(dá)H100的推理體驗,首Token時延5-10ms、TPS 200 tokens/s的指標(biāo)已達(dá)到海外主流模型水平。
UCM的開源與銀聯(lián)案例形成“技術(shù)-場景-數(shù)據(jù)”閉環(huán),吸引超50家生態(tài)伙伴加入,推動國產(chǎn)推理生態(tài)從“碎片化”走向“系統(tǒng)化”,尤其在金融、醫(yī)療等敏感領(lǐng)域成為“去海外依賴”的首選方案。
UCM標(biāo)志AI推理從“拼硬件”轉(zhuǎn)向“拼協(xié)同”,通過算法(稀疏注意力)、框架(動態(tài)KV卸載)、存儲(直通加速)的深度耦合,實現(xiàn)“1+1+1>3”的效果,為國產(chǎn)大模型差異化競爭提供底層支撐。