天才少女羅福莉首個小米成果 發布自駕+具身智慧跨界融合

記者林宸誼/即時報導

據中國媒體報導,入職小米還不到10天,天才少女羅福莉的首篇論文發表。羅福莉所負責的MiMo團隊,推出並開源全球首個同時覆蓋自動駕駛與具身智慧(意指機器人的AI軟體)的跨界模型 MiMo-Embodied,成功解決這兩大領域長期存在的知識遷移難題。

實測顯示,該模型在兩大方向共29項基準測試上全部拿下第一,涵蓋環境感知、路徑規劃、抓取、導航等核心能力,實現「自動駕駛+機器人」能力全覆蓋。

聚焦AI與科技行業的學術類微信公眾號「量子位」報導,在這篇出自MiMo團隊的研究中,羅福莉作為團隊負責人擔任核心作者,小米智駕團隊首席科學家陳龍則作為專案負責人。而這項研究最亮眼的地方,恰恰是具身智慧與自動駕駛的跨界融合。

針對自駕與具身操作場景的知識遷移難題,MiMo團隊提出並開源了全球首個打通這兩大領域的跨具身(X - Embodied)基座模型「MiMo-Embodied」。在實測效果上,MiMo-Embodied在自動駕駛與具身智慧共計29個Benchmark上全部霸榜。無論是開車的環境感知、規劃,還是機器人的拿取、導航,主打一個我全都要。

小米這次開源的MiMo-Embodied是業界首個開源的、成功融合自動駕駛與具身智慧(Embodied AI)兩大領域的統一多模態基礎模型。是基於MiMo-VL架構,透過構建涵蓋通用視覺、具身任務及駕駛場景的高品質數據集,並採用包含思維鏈(CoT)和強化學習(RL)的漸進式四階段訓練策略,有效打破室內操作與戶外駕駛之間的領域鴻溝。

最終,該模型在任務規劃、空間理解、環境感知及駕駛規劃等29個基準測試中,均超越現有的專用模型及通用模型,實現了跨領域的最先進(SOTA)性能。

在以往具身/自駕的VLM領域中,往往存在兩個問題,一方面是缺乏統一的具身VLM(Unified Embodied VLM)。現有的視覺語言模型(VLMs)大多專注於單一領域(僅室內任務或僅戶外駕駛),缺乏能夠連接這兩個領域的統一模型。限制了模型在動態環境中與物理世界有效交互的能力。

而這,也帶來了領域差距與遷移困難。具身智慧側重於室內操作,而自動駕駛側重於戶外道路,兩者存在顯著的領域差距(Domain Gap),阻礙了能力的跨領域遷移 。

另一方面則是評估體系缺失, 即缺乏全面的跨具身能力評估體系來衡量模型在兩個領域的綜合表現。

羅福莉所負責的MiMo團隊,推出並開源全球首個同時覆蓋自動駕駛與具身智慧的跨具身基座模型 MiMo-Embodied。(圖/取自微信公眾號「量子位」)

為瞭解決這些挑戰, MiMo-Embodied試圖將自動駕駛和具身智慧的任務合併到一個統一的VLM中,以整合模型的跨具身能力。

小米 AI 自駕

推薦文章

留言