DeepSeek Engram:颠覆GPU内存瓶颈!把知识存储从计算中分离,O(1)查找效率!

你有没有想过:为什么大模型需要这么贵的GPU?为什么每一代模型都在疯狂抢HBM内存?
来自DeepSeek和北京大学的团队刚刚给出了一个颠覆性的答案!他们发布了 Engram —— 一个全新的条件内存系统,把静态知识存储和动态推理计算彻底分离,实现了O(1)的查找效率,还能把巨大的内存表卸载到普通DRAM里!
这篇论文刚刚在2026年1月12日发布,GitHub已经获得 3.8k stars,让我们一起来看看这个可能改变LLM架构的突破吧!
🎯 核心问题:GPU内存的诅咒
现在的大模型面临一个尴尬的局面:
- HBM内存太贵了:顶级GPU的HBM内存容量有限,价格昂贵
- 模型在浪费GPU资源:大量的GPU周期都花在静态知识的查找上,而不是真正的推理
- MoE不够用:混合专家(MoE)通过条件计算扩展了容量,但缺少原生的知识查找原语
- 美国出口限制:对中国AI公司来说,获取顶级GPU内存尤其困难
关键洞察:静态知识和动态推理应该分开处理!
这就是Engram要解决的问题!
💡 Engram:条件内存的新稀疏性轴
Engram 的核心思想非常优雅但强大:把经典的N-gram嵌入现代化,实现O(1)查找的条件内存系统!
Engram 是这样工作的:
1. 内存检索层:Engram模块从静态内存中检索N-gram知识
├── 确定性寻址:不需要复杂的注意力机制
├── O(1)查找:常数时间复杂度,不随模型规模增长
└── DRAM卸载:巨大的内存表可以放在普通主机内存里
2. 状态融合层:把静态内存和动态隐藏状态融合
├── 早期层处理静态模式重建
├── 深层专注于复杂推理
└── 保持有效深度不变
3. 与MoE互补:两种稀疏性轴协同工作
├── MoE:条件计算(动态)
├── Engram:条件内存(静态)
└── U型缩放定律:指导最优容量分配
关键特性:
- ✅ O(1)查找效率:不随规模增长的常数时间复杂度
- ✅ 97%长上下文准确率:在长文本任务上表现优异
- ✅ DRAM卸载:不需要昂贵的HBM内存
- ✅ 确定性寻址:可预测的性能表现
- ✅ 完全开源:论文和代码都已发布!
🔬 实验结果:严格约束下的一致提升!
研究团队在严格的等参数量和等FLOPs约束下做了实验,结果非常有说服力:
Engram-27B vs MoE基线:
| 任务类型 | 性能提升 |
|---|---|
| 知识任务 | ✅ 一致改进 |
| 推理任务 | ✅ 一致改进 |
| 代码任务 | ✅ 一致改进 |
| 数学任务 | ✅ 一致改进 |
机制分析发现:
- 早期层减负:Engram让早期层从静态模式重建中解放出来
- 有效深度保留:更多深层资源可以用于复杂推理
- 系统效率提升:最小化推理开销的同时实现大规模内存表
🚀 为什么这很重要?
Engram 代表了LLM架构的一个全新方向:
- 降低硬件门槛:不需要最顶级的GPU也能运行大模型
- 突破内存限制:可以存储更多知识而不增加HBM需求
- 成本效益:普通DRAM比HBM便宜太多了
- 中国AI的破局:对受出口限制的中国公司尤其重要
- 架构创新:为下一代LLM设计提供了新思路
这可能是DeepSeek V4的核心技术!
🔮 未来展望
这个架构方向有太多令人兴奋的可能性:
- 内存-计算分离:未来模型可能会有独立的内存和计算模块
- 多轴稀疏性:MoE + Engram + 更多稀疏性轴
- 专业化硬件:为Engram设计的专用硬件加速器
- 知识持续更新:可以动态更新内存而不需要重新训练整个模型
💭 我的思考
Engram 让我想起了计算机架构的演进历史——CPU和内存的分离。
早期的计算机把计算和存储混在一起,但后来我们发现把它们分开、让各自专业化是更优的架构。Engram好像在LLM领域重演了这个故事!
而且,这个思路特别适合中国的AI发展——在无法获得最顶级GPU的情况下,通过架构创新来突破限制,这才是真正的”弯道超车”!
DeepSeek最近的一系列操作(R1、Engram)真的让人眼前一亮,他们好像找到了一条不同于OpenAI的技术路线。
📎 论文信息
标题:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
作者:Liang Wenfeng等(DeepSeek团队 + 北京大学)
机构:DeepSeek; Peking University
GitHub:https://github.com/deepseek-ai/Engram
论文PDF:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
发布日期:2026年1月12日
Stars:3.8k+
你觉得Engram怎么样?你认为这种内存-计算分离的架构会成为下一代LLM的主流吗?DeepSeek的V4模型值得期待吗?在评论区分享你的想法吧!
喜欢这篇文章吗?欢迎分享给你的朋友们!🚀
Agentic Reasoning:从被动推理到主动智能的完整路线图!