我的頻道

* 拖拉類別可自訂排序
恢復預設 確定
設定
快訊

英式中國菜襲捲TikTok 老美納悶為何有薯條與咖哩?

10種食物象徵開啟新年好運 各國習俗大不同

新年頭一天發表高效率新架構 DeepSeek準備再次震撼全球?

聽新聞
test
0:00 /0:00
DeepSeek提出名為mHC的新架構。(路透)
DeepSeek提出名為mHC的新架構。(路透)

中國人工智慧(AI)新創公司DeepSeek 1日發表新技術論文,勾勒一種效率較高的AI開發方式,顯示儘管無法自由採購輝達(Nvidia)公司晶片,中國AI業仍努力與OpenAI等業者競爭。

這篇論文提出一個名為流形約束超連接(Manifold-Constrained Hyper-Connections,mHC)的架構,推出這個框架目的是改善可擴展性,以及降低訓練先進AI系統的運算與能源需求。這篇論文列出19名作者,DeepSeek共同創辦人梁文鋒排在最後一位。

DeepSeek研究員團隊分別以有30億、90億和270億個參數的模型測試mHC,結果發現mHC能在運算負擔未大增情況下擴展規模。這些研究員說:「實證結果證實,mHC能有效達成穩定大規模訓練,而且可擴展性優於傳統超連接(HC)。」

業內觀察家認為,DeepSeek論文常提供重要早期訊號,暗示該公司下一個推出的大模型將選擇哪種工程設計。DeepSeek一年前推出的R1推理模型震撼全球,彭博行業研究(BI)分析師認為,DeepSeek未來數月可能推出的R2模型,有再次顛覆全球AI業的潛力。

由於美國阻止中國新創公司取得開發和執行AI不可或缺的最先進半導體,這些業者營運持續嚴重受限,這些限制已迫使研究員訴諸非傳統方法與架構。

AI DeepSeek 輝達

上一則

新型態電子報竄紅 名人、媒體都愛發

下一則

挺接班人 巴菲特:比起任何企業 波克夏更可能再過100年

延伸閱讀

超人氣

更多 >