小米發布3款大模型 MiMo-V2-Pro可在小米手機上使用

記者林宸誼/即時報導

小米大模型(Xiaomi MiMo)團隊19日發文,發布MiMo-V2-Pro & Omni & TTS三款大模型。其中MiMo-V2-Pro,這款兆級參數級別的AI大模型,已全平台上線開放體驗,小米手機用戶可直接上手使用,配套的手機端AI智能體「養龍蝦」功能也同步完成更新,帶來更全面的AI體驗。

雷軍19日發文表示,在全球權威大模型綜合智慧排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第八,若按照大模型品牌單獨排名,這款模型穩居全球第五,成功超越知名的xAI Grok模型,成為中國國產大模型中躋身全球第一梯隊的重磅產品。小米方面也表示,這款模型剛完成最終研發,後續還會快速迭代優化,智慧水準會持續提升。

雷軍強調,小米在AI領域上相對比較低調,實際進展可能比大家看到的要快很多。在AI領域,小米今年的研發和資本投入就將超過人民幣 160 億元。「我相信,只要我們堅持持續投入,小米在AI時代一定會交出一份靚麗的答卷。」

北京商報報導,Xiaomi MiMo-V2-Pro是小米面向Agent時代的旗艦基座模型,專為現實世界中高強度的Agent工作場景而打造。擁有超過1T的總參數量(42B活躍參數),採用創新的混合注意力架構,並支持1M超長上下文長度。在強大的模型基座上,小米在更為廣泛的Agent場景中持續Scaling算力,進一步拓展了智慧的動作空間,實現了從Coding到Claw的重要泛化。在全球權威大模型綜合智慧排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第八,境內第二。

MiMo-V2-Omni是小米面向Agent時代的全模態基座模型,專為現實世界中複雜的多模態交互與執行場景而生。小米從底層構建了融合文本、視覺、語音的全模態基座,並以統一架構將「感知」與「行動」深度綁定。打破傳統模型「重理解、輕執行」的局限,更讓模型原生具備了多模態感知、工具調用、函數執行及 GUI 操作能力。MiMo-V2-Omni可無縫接入各種Agent框架,實現了從理解到操控的跨越,大幅降低了全模態Agent的落地門檻。

Xiaomi MiMo-V2-TTS是小米自主研發的語音合成大模型。基於自研Audio Tokenizer和多碼本語音-文本聯合建模架構,經過上億小時語音數據的大規模預訓練與多維度強化學習,實現了高度可控的多細微性語音風格控制。

MiMo-V2-TTS支持從整體風格定調到局部情緒表達的精準調節,能在同一句話內完成語氣轉折和情感遞變;真實還原人類說話的自然韻律;在唱歌時也能準確表達音高和節奏,自然且富有表現力。

小米大模型團隊19日發文,發布MiMo-V2-Pro & Omni & TTS三款大模型。其中MiMo-V2-Pro這款兆級參數級別的AI大模型,已全平台上線開放體驗。(取材自雷軍微博)

小米

推薦文章