本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
昨天,就在昨天,DeepSeek 的 Github 上又更新了。新增了一个Engram仓库,这个仓库对应的项目 Engram 是 DeepSeek 针对 MoE 模型新增的一个模块。它让大模型从“死记硬背”转向更“聪明的查阅”,不仅性能超越同规模 MoE 模型,更可能重塑未来 AI 芯片的设计哲学。本文将尝试解读一下这个 Engram 模块的作用,以及这其中配套的论文,揭示条件记忆机制如何成为大模型的新基建。
大模型的记忆浪费
这个仓库中对应的论文写的很清晰,梁文峰也是其中的作者之一。截止目前,官方还没有配套的文章说明,我估计今晚或最近说不定他们对应的公众号就会做出更新。
这个 Engram 模块,主要解决的是大模型的“记忆浪费”问题。想象一下,当你问 DeepSeek,“牛顿第三定律是什么”时,它需要在数十亿参数中“计算”出答案。这个看似简单的过程,实际上消耗了数十层 Transformer 的注意力和前馈网络,就像在图书馆里不用目录卡,而是逐页翻书找一句话一样。
DeepSeek 团队研究发现,当前大语言模型存在一个根本性的效率悖论:它们缺乏原生的“知识查找”功能。对于”业余草的公众号发布了最新文章”这样的实体,模型必须用 6 – 7 层注意力机制逐步拼凑特征,本质上是在运行时重建一张静态查找表。这种“用计算模拟记忆”的方式,不仅浪费宝贵的网络深度,更像让一位数学家用微积分去算“1 + 1 = 2”。
更严重的是,语言本身具有双重性:
- 组合推理:需要深度动态计算(如数学证明、逻辑推导)
- 知识检索:大量文本是局部、静态、程式化的(如名词实体、固定搭配)
MoE(混合专家)架构通过“条件计算”解决了部分问题,但只是把动态计算做得更稀疏,依然没给静态知识一个“家”。
说白了,就是有些“死知识”没必要去深度计算,从而浪费掉更多算力等资源。
Engram 让大模型智能查词典
Engram 的名字可能就是源于神经科学中的“记忆痕迹”,它的核心思想很优雅:把静态知识从计算流中剥离,通过 O(1) 哈希查找实现常数时间检索。
下面我们简单的进行一下架构解剖,展开一下这其中的三层核心设计。
第一层 tokenizer 压缩和多头哈希
传统词表存在严重冗余,“Apple”和“ apple”(带空格)被分配不同 ID。Engram 通过规范化投影层将词表压缩 23%,让语义等价的 token 共享同一 ID。随后,采用8 个独立的哈希函数将 N-gram(这里取 2 – 3元组)映射到大小为素数的嵌入表中,碰撞率极低。
简单来说,不是给每个单词单独建档案,而是给“词根 + 词缀”模式建索引,8 把“钥匙”同时开一把锁。
第二层下文感知门控
静态检索的问题是缺乏语境适应性。Engram 的巧妙之处在于:用当前隐藏状态作为 Query,检索到的记忆作为 Key/Value,计算注意力分数生成门控值α∈(0,1)。如果检索到的“Apple”在当前语境中不相关,α会趋于 0 自动抑制噪声。
说白了,词典给出所有“bank”的解释,但门控机制会根据上下文判断是“银行”还是“河岸”。
第三层深度可分离卷积
对门控后的值序列施加卷积核为 4、膨胀率为 3 的一维因果卷积,扩大感受野并增强非线性。最终输出通过残差连接注入主干网络。
更多具体细节推荐细阅读这个论文https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf。
让主机内存成为一级缓存
Engram 最大的工程创新是“确定性寻址”。与 MoE 的动态路由不同,Engram 的查找索引完全由输入 token 决定,在推理前就已知。这带来三个革命性优化:
- 训练时模型并行:100B 参数的嵌入表分片在多 GPU,All-to-All 通信只传输活跃行
- 推理时预取:主机 DRAM 通过 PCIe 异步传输,与前几层计算重叠,
延迟 < 3% - Zipfian 缓存层次:利用 N-gram 访问的幂律分布(20% 模式覆盖 80% 访问),热点数据自动缓存在 GPU HBM,冷数据放 NVMe SSD
论文中的实测数据表明:在 8B 密集模型中插入 100B 参数的 Engram 层,吞吐量仅从 6315 tok/s 降至 6140 tok/s,性能损失仅 2.8%。
找到记忆与计算的黄金分割点
这篇论文最震撼的发现是稀疏容量分配的 U 型定律。在总参数和训练计算量固定的情况下,DeepSeek 团队发现:
- 纯 MoE(100% 专家):不是最优,缺乏静态记忆能力,验证损失 1.7248
- 纯 Engram(0% 专家):不可行,失去动态推理能力
- 最佳点(ρ ≈ 75-80%):将 20 – 25% 的稀疏预算分配给 Engram,损失降至 1.7109,改善 0.0139
这个定律揭示了 MoE 与 Engram 的结构互补性。前者负责“思考”,后者负责“记忆”。强行让计算单元兼顾两者,反而两头不讨好。
内存即服务
在固定 3B MoE backbone 上,DeepSeek 团队将 Engram 表从 25.8 万槽扩展到 1000 万槽(+ 13B 参数),验证损失呈现严格的幂律下降(线性对数关系)。这意味着:只要存储够大,性能就能持续提升,而 FLOPs 成本为零。
这彻底改变了参数扩展的游戏规则,内存容量成为独立于计算的扩展轴。
性能碾压
不只是“记得多”,更是“想得深”。
在 27B 参数、3.8B 激活参数的严格对照下,Engram – 27B 展现出惊人实力。
知识任务(预期提升)。
- MMLU:+3.0分(60.4 vs 57.4)
- CMMLU(中文):+4.0分(61.9 vs 57.9)
推理任务(意外惊喜)。
- BBH(复杂推理):+ 5.0 分(55.9 vs 50.9)← 提升更大
- ARC-Challenge:+ 3.7 分(73.8 vs 70.1)
- DROP(阅读理解):+3.3 F1 分
代码数学。
- HumanEval:+3.0%(40.8 vs 37.8)
- MATH:+2.4 分(30.7 vs 28.3)
Engram 不只是在“查词典”,它通过解放早期层的注意力容量,让网络能专注于高层模式匹配。LogitLens 显示,Engram 第 5 层的预测置信度已接近 MoE 的第 12 层,等效深度增加 7 层!
长上下文能力的质变
长上下文能力从“84 分到 97 分”的质变。
在长上下文基准 RULER上,Engram 的优势被放大:
| 任务 | MoE-27B | Engram-27B | 提升 |
|---|---|---|---|
| Multi-Query NIAH | 84.2 | 97.0 | +12.8 分 |
| Variable Tracking | 77.0 | 89.0 | +12.0 分 |
更惊人的是,在仅使用 82% 训练计算量的情况下,Engram-27B(41k 步)就能在 RULER 上超越完全训练的 MoE-27B(50k 步)。这说明:Engram 的架构优势本身就自带长上下文基因。
局部依赖被 Engram 接管后,注意力机制得以 100% 聚焦全局上下文关系,实现真正的远程依赖建模。
CPU/GPU分工的范式转移
GPU 回归纯计算本质
- 显存解放:不再被万亿参数撑爆,HBM 只需缓存活跃计算状态和热点嵌入
- 通信简化:确定性 ID 查找取代动态路由,专家并行的负载不均问题消失
- 算力专注:所有晶体管投入矩阵乘和 Attention,不做“记忆”的脏活
CPU 成为记忆中枢
- DRAM 池化:CPU 内存成为模型的“外存”,存储数百 GB 到 TB 级嵌入表
- 智能预取:CPU 提前计算哈希、发起 DMA,GPU 专注计算流
- 缓存策略:基于访问频率自动分层管理,NVMe SSD 成为“冷存储”
未来芯片设计畅想
- 内存扩展卡:带哈希引擎的 CXL 内存设备,直接响应 Engram 查找请求
- 近存计算:在 DRAM 控制器中集成轻量卷积单元,过滤后再传回 GPU
- 专用 MMU:支持
哈希 ID 到物理地址的硬件级快速翻译
通往 AGI 的又一块拼图
当前局限
- 稀疏模式依赖:对需要复杂组合的新知识,静态查找作用有限
- 训练稳定性:嵌入表需要 5 倍学习率和零权重衰减单独优化
- 多语言均衡:tokenizer 压缩对形态丰富语言(如阿拉伯语)效果待验证
未来方向
- 分层记忆:将 Engram 扩展为 L1/L2/L3 缓存结构,支持实时知识更新
- 动态扩容:训练时自动识别高频 N-gram,动态分配嵌入槽位
- 检索增强结合:Engram 处理局部模式,RAG 处理长尾知识,实现双轨记忆
- 硬件生态:推动 CXL 3.0+ 和 UCIe 标准支持确定性查找原语
结语
Engram 的意义远超一个开源模块。它揭示了一个深刻道理:当模型规模达到临界点后,架构效率的微小改进,会产生指数级的性能复利。这就是架构创新的复利效应。
从 Transformer 到 MoE,再到 Engram-Conditional Memory,我们看到的不仅是技术的迭代,更是 AI 系统从“暴力计算”走向“智能组织”的进化。当每一层网络、每一个参数都有明确分工时,AGI 的路径才更加清晰。
查字典这类条件内存可能会成为下一代稀疏模型不可或缺的建模原语。这或许就是大模型效率革命的下一个十年。

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!
本文原文出处:业余草: » 27B 干翻 40B!DeepSeek 开源 Engram,让模型“查字典”