華為AI推理技術 9月將正式開源
聽新聞
test
0:00 /0:00
華為12日發表AI推理創新技術─推理記憶數據管理器(UCM),這項突破性成果有望降低中國AI推理對高頻寬記憶體(HBM)技術的依賴,提升中國AI大模型推理性能,打破美國封鎖中國取得HBM的瓶頸。而華為也宣布該技術將9月正式開源(開放程式碼)。
美中科技戰方興未艾,美國早在去年就限制中國取得先進HBM,HBM是AI晶片的心臟,負責資料高速傳輸,其性能直接決定AI算力集群效率,美國智庫CSIS專家指出,HBM約占先進AI晶片成本的50%,封鎖HBM可大幅延緩華為等陸企的AI晶片開發進程。
新浪財經報導,華為昨天參加2025金融AI推理應用落地與發展論壇,首度推出的UCM是一款以KV Cache(已計算的先存起來,下次直接拿來用不必再重算)為中心的推理加速套件,融合多類型緩存加速演算法工具,透過分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口,實現高吞吐、低延時的推理體驗。
據了解,HBM作為解決數據搬運問題的關鍵技術,在AI推理過程中扮演著舉足輕重的角色。當HBM資源不足時,用戶在使用AI推理時會明顯感受到體驗下降,任務卡頓、回應緩慢等問題接踵而至。
UCM技術透過優化KV Cache記憶資料管理,使首每個文字單位(Token)時延最大降低90%,同時降低Token的推理成本。
這項技術發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵節點,推理體驗直接關聯用戶滿意度和商業可行性,成為衡量模型價值的重要標準。
