ai, 论文解读,

DeepSeek Engram:颠覆GPU内存瓶颈!把知识存储从计算中分离,O(1)查找效率!

Unbug By Unbug Follow Feb 28, 2026 · 1 min read
DeepSeek Engram:颠覆GPU内存瓶颈!把知识存储从计算中分离,O(1)查找效率!
Share this

DeepSeek Engram:颠覆GPU内存瓶颈!把知识存储从计算中分离,O(1)查找效率!

DeepSeek Engram

你有没有想过:为什么大模型需要这么贵的GPU?为什么每一代模型都在疯狂抢HBM内存?

来自DeepSeek和北京大学的团队刚刚给出了一个颠覆性的答案!他们发布了 Engram —— 一个全新的条件内存系统,把静态知识存储动态推理计算彻底分离,实现了O(1)的查找效率,还能把巨大的内存表卸载到普通DRAM里!

这篇论文刚刚在2026年1月12日发布,GitHub已经获得 3.8k stars,让我们一起来看看这个可能改变LLM架构的突破吧!


🎯 核心问题:GPU内存的诅咒

现在的大模型面临一个尴尬的局面:

  1. HBM内存太贵了:顶级GPU的HBM内存容量有限,价格昂贵
  2. 模型在浪费GPU资源:大量的GPU周期都花在静态知识的查找上,而不是真正的推理
  3. MoE不够用:混合专家(MoE)通过条件计算扩展了容量,但缺少原生的知识查找原语
  4. 美国出口限制:对中国AI公司来说,获取顶级GPU内存尤其困难

关键洞察:静态知识和动态推理应该分开处理!

这就是Engram要解决的问题!


💡 Engram:条件内存的新稀疏性轴

Engram 的核心思想非常优雅但强大:把经典的N-gram嵌入现代化,实现O(1)查找的条件内存系统!

Engram 是这样工作的:

1. 内存检索层:Engram模块从静态内存中检索N-gram知识
   ├── 确定性寻址:不需要复杂的注意力机制
   ├── O(1)查找:常数时间复杂度,不随模型规模增长
   └── DRAM卸载:巨大的内存表可以放在普通主机内存里

2. 状态融合层:把静态内存和动态隐藏状态融合
   ├── 早期层处理静态模式重建
   ├── 深层专注于复杂推理
   └── 保持有效深度不变

3. 与MoE互补:两种稀疏性轴协同工作
   ├── MoE:条件计算(动态)
   ├── Engram:条件内存(静态)
   └── U型缩放定律:指导最优容量分配

关键特性:

  • O(1)查找效率:不随规模增长的常数时间复杂度
  • 97%长上下文准确率:在长文本任务上表现优异
  • DRAM卸载:不需要昂贵的HBM内存
  • 确定性寻址:可预测的性能表现
  • 完全开源:论文和代码都已发布!

🔬 实验结果:严格约束下的一致提升!

研究团队在严格的等参数量和等FLOPs约束下做了实验,结果非常有说服力:

Engram-27B vs MoE基线:

任务类型 性能提升
知识任务 ✅ 一致改进
推理任务 ✅ 一致改进
代码任务 ✅ 一致改进
数学任务 ✅ 一致改进

机制分析发现:

  1. 早期层减负:Engram让早期层从静态模式重建中解放出来
  2. 有效深度保留:更多深层资源可以用于复杂推理
  3. 系统效率提升:最小化推理开销的同时实现大规模内存表

🚀 为什么这很重要?

Engram 代表了LLM架构的一个全新方向:

  1. 降低硬件门槛:不需要最顶级的GPU也能运行大模型
  2. 突破内存限制:可以存储更多知识而不增加HBM需求
  3. 成本效益:普通DRAM比HBM便宜太多了
  4. 中国AI的破局:对受出口限制的中国公司尤其重要
  5. 架构创新:为下一代LLM设计提供了新思路

这可能是DeepSeek V4的核心技术!


🔮 未来展望

这个架构方向有太多令人兴奋的可能性:

  1. 内存-计算分离:未来模型可能会有独立的内存和计算模块
  2. 多轴稀疏性:MoE + Engram + 更多稀疏性轴
  3. 专业化硬件:为Engram设计的专用硬件加速器
  4. 知识持续更新:可以动态更新内存而不需要重新训练整个模型

💭 我的思考

Engram 让我想起了计算机架构的演进历史——CPU和内存的分离

早期的计算机把计算和存储混在一起,但后来我们发现把它们分开、让各自专业化是更优的架构。Engram好像在LLM领域重演了这个故事!

而且,这个思路特别适合中国的AI发展——在无法获得最顶级GPU的情况下,通过架构创新来突破限制,这才是真正的”弯道超车”!

DeepSeek最近的一系列操作(R1、Engram)真的让人眼前一亮,他们好像找到了一条不同于OpenAI的技术路线。


📎 论文信息

标题:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
作者:Liang Wenfeng等(DeepSeek团队 + 北京大学)
机构:DeepSeek; Peking University
GitHub:https://github.com/deepseek-ai/Engram
论文PDF:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
发布日期:2026年1月12日
Stars:3.8k+


你觉得Engram怎么样?你认为这种内存-计算分离的架构会成为下一代LLM的主流吗?DeepSeek的V4模型值得期待吗?在评论区分享你的想法吧!


喜欢这篇文章吗?欢迎分享给你的朋友们!🚀

Releated