DeepSeek發布DSpark 聚焦提升AI推理效率
繼完成人民幣500億元融資後,中國AI新創公司深度求索(DeepSeek)今天再公布開源成果,推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型,同步開源推測解碼(Speculative Decoding)框架DSpark,以及推測解碼訓練框架DeepSpec。
根據DeepSeek創辦人梁文鋒與北京大學共同發表的論文《DSpark:基於半自回歸生成的置信度調度推測解碼》,將DSpark部署在DeepSeek-V4線上服務系統,並在真實用戶流量環境中運行,可有效減少無效驗證造成的算力浪費。
相較於既有的生產環境基準方案(MTP-1),DSpark在相同吞吐量下,可將單一使用者的生成速度提升60%至85%。更重要的是,在高互動需求下,DSpark能避免吞吐量大幅下降,使系統達到過去難以實現的效能水準,進一步提升整體服務系統的Pareto最佳前緣。
DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark並非全新模型,而是在原有模型中加入推測解碼模組,以提升推理速度及算力利用效率。推測解碼是一種在不影響模型輸出結果下提升推理效率的技術,先由輕量級模型預先產生候選內容,再交由主模型驗證,以加快大型語言模型(LLM)的推理速度。
DeepSpec則是用於訓練與評估推測解碼草稿模型(Draft Model)的完整開源工具,包含資料準備、模型訓練、草稿模型實作及效能評估等功能,可協助研究人員直接訓練推測解碼模型,降低部署門檻。
業界分析指出,DeepSeek此次發布的重點並非推出全新模型,而是讓現有模型運行得更快、更有效率,有望進一步降低推理成本、改善使用體驗。這也是DeepSeek完成融資後,率先投入AI推理效率優化領域,顯示其除了持續提升模型能力,也希望在算力效率競爭上取得優勢。
DeepSeek公布了DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark兩款模型,同時開源DSpark推測解碼框架與DeepSpec訓練框架,重點是提升推理速度與算力利用率。 根據論文與實測結果,DSpark部署於DeepSeek-V4線上系統後,可減少無效驗證造成的算力浪費;在相同吞吐量下,單一使用者生成速度可提升60%至85%,且高互動場景下不易掉速。 DeepSpec是用來訓練與評估推測解碼草稿模型的完整開源工具,涵蓋資料準備、模型訓練、草稿模型實作與效能評估,可降低研究人員訓練與部署推測解碼模型的門檻。精華 FAQ
