DeepSeek危險了?「AI教母」出手 AI模型花不到50美元

DeepSeek橫空出世引起市場關注,不過被譽為「AI教母」的知名華裔美籍科學家李飛飛領導的團隊,以低於50美元的雲端運算成本,成功訓練出名為「s1」的人工智慧推理模型。
界面新聞報導,此模型在數學和編碼能力測驗中的表現,據稱媲美OpenAI o1和DeepSeek R1等尖端推理模型。
李飛飛團隊的s1模型並非從頭訓練,而是建立在阿里巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座,在16塊H100 GPU上監督微調26分鐘,訓練出新模型s1-32B, 取得與OpenAI的o1和DeepSeek的R1等尖端推理模型數學及編碼能力相當的效果,甚至在競賽數學問題上的表現比o1-preview高出27%。
財聯社報導,中國某知名大模型公司CEO表示,李飛飛團隊的成就,實際上是利用從Google模型中擷取的1000個樣本來微調通義千問模型。這種微調的成本固然低廉,但優異表現仍有賴於既有模型的基礎。
每日經濟新聞報導,復旦大學電腦學院副教授、博士生鄭驍慶指出,50美元是否包含了其他資料、設備、消融實驗等費用,還要打一個問號。正如DeepSeek-V3不到600萬美元的訓練成本,實際上也只包括了訓練時的GPU算力費用。
鄭驍慶提到,「像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。」這代表前期是需要大量「燒錢」的。
谷歌DeepMind資深研究員Wenhu Chen同樣表示,「真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型,用同樣的資料去訓練,但最終並不能達到這麼好的效果。」
也就是說,s1-32B是站在「巨人肩膀」上,且50美元的成本也並沒有涵蓋Qwen模型的訓練費用。
FB留言