本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
【腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
DeepSeek V4 发布,使用华为昇腾 NPU 芯片,开启“
去 N 化 ”!
在昨天的文章中,我预言说周五,DeepSeek 会更新官方文档。
没想到,还真被我说中了。DeepSeek 不仅更新了官方文档,还发布了 V4 新模型。
本次 V4 版本发布,分为 deepseek-v4-flash 和 deepseek-v4-pro 两种模式。其中 flash 模式的价格和上一代几乎持平,部分场景还下降了。对比主要的输入输出价格基本与 V3 持平,依然保持了极高的性价比。
除了价格之外,还有模型性能方面也有不少媒体报道,我这里就不在表述。
我重点看了一下 DeepSeek 的技术报告,发现 DeepSeek 的 V4 版本的最重要的亮点是其专家 EP 可以跑在华为昇腾 NPU 芯片上!
对应的技术文档中明确的提到了国产芯片华为昇腾(HUAWEI Ascend)NPU,摘录其中一条描述如下。
We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.
更具体的推荐大家去看 DeepSeek 官方给的技术报告文档:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf。
其中提到的使用情况如下所示。
- 验证场景:细粒度专家并行(EP)方案在昇腾 NPU 平台上进行了功能验证
- 技术方案:将通信与计算融合到单一流水线内核中,实现通信 – 计算重叠
- 开源贡献:基于该方案开源了 MegaMoE 内核实现(作为 DeepGEMM 组件)
这为国产芯片技术带来了巨大的好处。
首先,排在第一的具体收益表现体现在性能提升上。推理工作负载加速 1.50~1.73×,延迟敏感场景最高 1.96×。
其次是带宽优化方面,降低对互连带宽的依赖,给出的公式是:C/B ≤ 2d = 6144 FLOPs/Byte。
接着是架构建议方面,DeepSeek 提出,通信平衡、功耗预算、通信原语优化等硬件设计建议。
最后是软件协同方面,通过 TileLang DSL 实现跨平台高效内核开发,降低国产芯片适配成本。
无独有偶,今天还有不少人传出,美团也在采用国产算力。
文章配图参见 https://mp.weixin.qq.com/s/GxA_ssCt_DZ9s0dmGw-tCg。
一切的一切,预示着适配并成功运行在国产算力集群上,而非仅仅停留在理论层面。
我们以前喊着去 IOE,现在我们可以说出,中国算力正式开启“去N化”,具有非常大的且长远的战略价值。

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!
本文原文出处:业余草: » DeepSeek V4 发布,使用华为昇腾 NPU 芯片,开启去 N 化!