DeepSeek一年前橫空出世，在美區蘋果App Store下載榜一度超越ChatGPT。DeepSeek今日凌晨開源全新架構模組「Engram」，並同步發表技術論文再度引發關注。（新華社）

據中國科技網站「DoNews」報導，DeepSeek 今日凌晨開源全新架構模組「Engram」，並同步發表技術論文，DeepSeek創辦人梁文鋒也列名作者名單。據稱，Engram模組透過引入可擴充的查找式記憶結構，為大型語言模型提供有別於傳統Transformer與MoE架構的全新設計方向。

「科創板日報」指出，DeepSeek發布的新論文「Conditional Memory via Scalable Lookup： A New Axis of Sparsity for Large Language Models」（基於可擴展查找的條件記憶：大型語言模型稀疏性的新維度），為北京大學與DeepSeek共同完成。

論文提出條件記憶（conditional memory），通過引入可擴展的查找記憶結構，在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼、數學等任務上的表現。同時，DeepSeek開源相關記憶模組Engram。

「DoNews」報導，該論文指出，當前主流大模型在處理兩類任務時存在結構性低效：一類是依賴固定知識的「查表式」記憶，另一類是複雜推理與組合計算。傳統Transformer（無論Dense或MoE）均需通過多層注意力與MLP重建這些靜態模式，導致計算資源被大量消耗在「重複構造已知模式」上。

報導稱，Engram的核心機制是基於現代化哈希N-Gram嵌入的O(1)查找式記憶。模組會對輸入Token序列進行N-Gram切片，並通過多頭哈希映射到一個規模可擴展的靜態記憶表中，實現常數時間的檢索。

論文強調，這種查找與模型規模無關，即便記憶表擴展至百億級參數，檢索成本仍保持穩定。與MoE的條件計算不同，Engram提供的是「條件記憶」。模組會根據當前上下文隱向量決定是否啟用查找結果，並通過門控機制與主幹網絡融合。

論文顯示，Engram通常被放置在模型早期層，用於承擔「模式重建」職責，從而釋放後續層的計算深度用於複雜推理。DeepSeek在27B參數規模的實驗中，將部分MoE專家參數重新分配給Engram記憶表，在等參數、等算力條件下，模型在知識、推理、代碼與數學任務上均取得顯著提升。

報導指出，在X平台上，相關技術討論認為Engram的機制有效減少模型早期層對靜態模式的重建需求，使模型在推理部分表現得更「深」。

部分開發者指出，這種架構讓大規模靜態記憶得以脫離GPU存儲限制，通過確定性尋址實現主機內存預取，從而在推理階段保持低開銷。多位觀察者推測，Engram很可能成為DeepSeek下一代模型「V4」的核心技術基礎。