本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
【腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
国外的模型强,我们很少有看到相关技术或论文方面的突破。不知道,这是不是一个深水区,以至于大多数自媒体只能在版本发布上下功夫。
国内的模型发布,好像也就 DeepSeek 的相关论文每次能引起网友的注意。这不,这两天 DSpark 刷屏了,当行业还在卷参数、卷智商时,DeepSeek 已经开始卷“手速”了。但是,这么好的东西,它的 star 数连 Github 的周榜都没冲上,截止目前只有 2.7k 的 star 数。
时间来到 2026 年 6 月 27 日,DeepSeek 联合北京大学低调发布了一篇重磅论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。这篇由梁文锋亲自署名的论文,正式开源了 DSpark 的推理加速框架。
这不是一个新的大模型,而是一套让现有模型跑得更快、成本更低的“性能加速器”。消息一出,AI 圈迅速沸腾,大模型推理加速的“效率革命”来了。
为什么 DeepSeek 要推出 DSpark?
文章配图参见 https://mp.weixin.qq.com/s/HUmOaWTsWciFeCzTXkepAQ。
大模型推理慢、成本高
当前主流大语言模型都采用自回归生成方式,每生成一个 token,都需要基于全部前置 token 完成一次完整的前向传播。输出越长,等待越久。
这带来了两个行业级痛点:
- GPU 利用率低下:自回归解码时 GPU 空置率高达 99%,真正的卡点是内存墙,不是算力
- 用户等待时间长:在实时对话、多轮智能体工作流等低延迟场景中,响应慢直接影响体验
当行业还在争论“谁的模型更聪明”时,DeepSeek 选择直面更现实的问题,如何让大模型跑得更快、用得更省?
推测解码
为了让大模型跑的更快,行业公认的提速路线就是推测解码(Speculative Decoding)。
它的核心思路是,用一个轻量级”草稿模型”快速生成多个候选 token,再由大模型一次性并行验证。这样就把“逐字生成”变成了“批量校验”。
但现有方案各有死穴:
| 方案类型 | 代表 | 优势 | 致命短板 |
|---|---|---|---|
| 自回归草稿 | Eagle3 | 依赖建模强、接受率高 | 草稿耗时随长度线性增长,只能用短块 |
| 并行草稿 | DFlash | 单次前向传播、高吞吐 | 无法建模块内 token 依赖,尾部接受率快速衰减 |
更关键的是,现有方案都缺乏负载自适应校验机制,高并发场景下算力浪费严重。
DSpark 的核心创新
DSpark 并没有颠覆推测解码的基本路线,而是在两条路线之间找到了最优解。
半自回归生成架构兼顾速度与质量
DSpark 保留了并行主干网络的高吞吐优势,同时加入轻量级串行模块,逐 token 注入前缀依赖信息。
这个串行模块有两种实现方式:
- 马尔可夫头:仅依赖前一个token
- RNN 头:通过循环状态累积完整前缀信息
这样改进后的效果有多夸张呢?
实验表明,仅两层 Transformer 结构的 DSpark,在所有测试领域都超过了五层 DFlash 的接受长度。
置信度动态调度
这是 DSpark 最精妙的设计,不是验证所有候选 token,而是只验证最有价值的。
具体分为两层。第一层,置信度预判。
- 在草稿模型上加装“置信度头”(Confidence Head),实时预测每个 token 的条件接受概率
- 但 AI 打分容易“自我感觉良好”,DSpark 搭配了顺序温度缩放(STS)校准,把打分误差从 3%-8% 降到约 1%
第二层,硬件感知动态调度。
- 基于引擎吞吐曲线,将验证长度选择转化为
全局吞吐量最大化问题 - 低负载时自动拉长验证块,把空闲算力用满
- 高负载时主动裁剪低价值 token,避免资源争抢
这套机制让系统该快时快、该稳时稳,全程不会出现传统静态方案的速度骤降。
实测数据
速度提升 60%-85%,吞吐最高翻 4 倍。
DeepSeek 生产环境实测
DSpark 已直接部署在 DeepSeek-V4-Flash 和 V4-Pro 的真实线上流量中,实测数据如下表格所示。
| 指标 | V4-Flash | V4-Pro |
|---|---|---|
| 单用户生成速度提升 | 60%-85% | 57%-78% |
| 聚合吞吐量提升 | 51%-400% | 51%-400% |
更惊人的是在高 SLA 约束场景,当系统要求单用户生成速度不低于 120 token/s 时,老方案性能严重下滑,而 DSpark 仍能保持 661% 的吞吐量优势。
不止DeepSeek自家能用
DSpark 不是“专属工具”,已在第三方模型上验证。
| 目标模型 | 相比 Eagle3 提升 | 相比 DFlash 提升 |
|---|---|---|
| Qwen3-4B | 30.9% | 16.3% |
| Qwen3-8B | 30.9% | 18.4% |
| Qwen3-14B | 30.0% | 18.3% |
| Gemma4-12B | 一致增益 | 一致增益 |
论文还揭示了一个有趣的领域差异效应,结构化任务(数学推理、代码生成)的可接受长度天然更高,而开放式对话场景偏低。这说明 DSpark 在“确定性高”的场景下效果更显著。
无损加速
所有通过验证的 token 都经过主模型严格校验,输出分布与原版模型完全一致。在 MMLU、GSM8K 等权威基准测试中,模型性能没有任何下降。
说白了,这相当于是卡了一个 bug,输出质量零损失。
MIT 协议,全栈开放
和以往一样,DeepSeek 这次开源的诚意依旧拉满了。
- 论文、代码、训练脚本:全部在 GitHub DeepSpec 项目公开
- 模型权重:V4-Flash 和 V4-Pro 的 DSpark 版本已上架 HuggingFace
- 协议:MIT 协议,个人和企业均可免费商用、二次开发
- 配套工具:DeepSpec 训练仓库包含 Eagle3、DFlash、DSpark 三种草稿模型的完整实现
这意味着,缺乏底层算法团队的中小企业,无需巨额研发即可复用成熟的推理优化方案。
AI Infra 再次被 DeepSeek 加速了
DSpark 发布后,AI 技术社区反响热烈。
获得了很多好评,比如下面这些。
- DSpark 的创新不仅体现在算法层面,其完整的技术实现方案更具实践价值。这种模型迭代与基础设施升级同步推进的研发模式,展现了团队对技术生态的深刻理解。
- 大模型的竞争已经不只是谁的模型更聪明了,推理效率、服务成本、用户体验这些工程层面的东西,权重越来越大。
- 好的技术就是让你感觉不到技术的存在,它只是变得更快了而已。
- 也有开发者直言,不是每家公司都愿意把生产环境验证过的技术细节和模型权重放出来的。
结语
DSpark 的发布,标志着大模型行业的竞争逻辑正在发生深刻转变。从“拼参数规模”全面转向“拼推理效率与成本控制”。
当别家 AI 还在卷智商时,DeepSeek 选择卷“手速”,而且把提速秘籍公之于众。这不仅是技术秀肌肉,更是要把整个行业的推理成本打下来。
AI 赛道的下半场,拼的不再是谁的脑子更大,而是谁的手更快、成本更低。DSpark 这步棋,走得很聪明。但由于 DSpark 太偏技术,对普通 AI 用户来说,很难在实际使用过程中给它带来 star,以至于它连 Github 的周榜都没冲上。

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!
本文原文出处:业余草: » DeepSeek 开源的 DSpark,推理加速 80%,没上 Github 周榜