我的頻道

* 拖拉類別可自訂排序
恢復預設 確定
設定
快訊

要求徹查紐約遊民所合約 眾議員致函司法部

白宮發言人李維特休產假「我不在時你們有總統電話」

時隔1年多...DeepSeek發布V4新模型 百萬上下文成標配

聽新聞
test
0:00 /0:00
中國AI新創深度求索(DeepSeek)24日宣布,全新系列模型DeepSeek...
中國AI新創深度求索(DeepSeek)24日宣布,全新系列模型DeepSeek-V4的預覽版本正式上線,並同步開源。(路透)

就在OpenAI發布GPT-5.5幾個小時後,中國AI新創深度求索(DeepSeek)24日宣布,全新系列模型DeepSeek-V4的預覽版本正式上線,並同步開源。最新模型具有能力處理長達百萬字的超長上下文,在Agent能力、世界知識和推理性能上均實現中國國內與開源領域的領先。陸媒研判,新模型使用的是華為昇騰晶片。這距離DeepSeek去年1月的大版本更新已時隔15個月。

上海第一財經報導,V4模型按大小分為Pro和Flash兩個版本,其中,Pro版參數為1.6兆,啟動參數490億,預訓練資料量33兆;Flash版參數為2840億,啟動參數130億,預訓練資料量32兆。

DeepSeek表示,Pro版本主打高性能,在Agentic Coding(智能體編程)評測中已達到目前全球開源模型的最優水平,也已成為公司內部開發的首選工具;在數學、STEM及競賽型代碼評估中,其表現已能與目前全球頂級閉源模型比肩。

Pro和Flash兩個版本的上下文都是1M(百萬),均同時支持「非思考模式」與「思考模式」。「從現在開始,一百萬上下文將是 DeepSeek 所有官方服務的標配。」DeepSeek表示,V4開創了一種全新的注意力機制,在token維度進行壓縮,結合DeepSeek Sparse Attention(DSA,深度求索稀疏注意力機制,實現了全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和顯存的需求。

從價格看,DeepSeek指出,V4-Pro每百萬tokens輸入是1元(人民幣,單位下同,約新台幣4.62元),輸出是12元,V4-Flash每百萬tokens輸入是0.2元,輸出是2元。有評論認為,價格仍相當普惠。

報導指出,業界一直在關注DeepSeek-V4是否會使用中國國產算力,從推文來看確實是與華為昇騰合作。DeepSeek表示,受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市後,Pro的價格會大幅下調。

相比前代模型, V4-Pro 的Agent能力顯著增強。在Agentic Coding(代理驅動的程式撰寫)評測中,V4-Pro達到當前開源模型最佳水平。

在推理上,官方在論文中表示,總體約落後前沿閉源模型3至6個月。Pro‑Max(Max表示最大推理能力模式)推理擴展後在標準推理基準上優於OpenAI的GPT‑5.2、Gemini‑3.0‑Pro,略遜於GPT‑5.4、Gemini‑3.1‑Pro。

OpenAI 華為 DeepSeek

上一則

中從帶回月壤發現2種月球新礦物:鎂嫦娥石、鈰嫦娥石

下一則

外國金融機構大舉發行人民幣債券 強化人民幣國際地位

超人氣

更多 >