我的頻道

* 拖拉類別可自訂排序
恢復預設 確定
設定
快訊

川普1照片突從艾普斯坦檔案下架 司法部解釋原因

中國巨型使館倫敦建案待決 北京在英外交足跡引關注

小米發布聲音理解大模型MiDashengLM-7B 全面開源

IT之家4日消息,小米自研聲音理解大模型「MiDashengLM-7B」4日正式發布,並全量開源。

小米表示,MiDashengLM-7B速度精度上實現雙突破:單樣本首Token延遲僅為同類模型1/4、同顯存下並發超20倍,在22個公開評測集上刷新多模態大模型最佳成績(SOTA)。

報導稱,MiDashengLM-7B基於Xiaomi Dasheng作為音訊編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現對語音、環境聲音和音樂的統一理解。

2024年,小米發布的Xiaomi Dasheng聲音基座模型,據稱是國際上首次突破AudioSet 50+ mAP,在HEAR Benchmark環境聲、語音、音樂三大領域建立領先優勢並保持至今。

Xiaomi Dasheng在小米的智慧家庭和汽車座艙等場景有超過30個落地應用。業界首發的車外喚醒防禦、手機音箱全天候監控異常聲音、「打個響指」環境音關聯IoT控制能力,以及小米YU7上搭載的增強哨兵模式劃車檢測等,背後都有Xiaomi Dasheng作為核心演算法的賦能。

作為小米「人車家全生態」策略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。

小米

上一則

市場估Fed 9月降息 台幣終結連七貶

下一則

三安光電擬2.39億美元收購Lumileds 有望打入蘋果供應鏈

延伸閱讀

超人氣

更多 >