DeepSeek V4 发布，使用华为昇腾 NPU 芯片，开启去 N 化！

公告：“业余草”微信公众号提供免费CSDN下载服务(只下Java资源)，关注业余草微信公众号，添加作者微信：xttblog2，发送下载链接帮助你免费下载！
本博客日IP超过2000，PV 3000 左右，急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包，请加博主新的微信号：xttblog2，之前的微信号好友位已满，备注：返现
受密码保护的文章请关注“业余草”公众号，回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽，请关注文末小程序
视频教程免费领

【腾讯云】1核2G5M轻量应用服务器50元首年，高性价比，助您轻松上云

DeepSeek V4 发布，使用华为昇腾 NPU 芯片，开启“
去 N 化 ”！

在昨天的文章中，我预言说周五，DeepSeek 会更新官方文档。

没想到，还真被我说中了。DeepSeek 不仅更新了官方文档，还发布了 V4 新模型。

本次 V4 版本发布，分为 deepseek-v4-flash 和 deepseek-v4-pro 两种模式。其中 flash 模式的价格和上一代几乎持平，部分场景还下降了。对比主要的输入输出价格基本与 V3 持平，依然保持了极高的性价比。

除了价格之外，还有模型性能方面也有不少媒体报道，我这里就不在表述。

我重点看了一下 DeepSeek 的技术报告，发现 DeepSeek 的 V4 版本的最重要的亮点是其专家 EP 可以跑在华为昇腾 NPU 芯片上！

对应的技术文档中明确的提到了国产芯片华为昇腾（HUAWEI Ascend）NPU，摘录其中一条描述如下。

We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.

更具体的推荐大家去看 DeepSeek 官方给的技术报告文档：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf。

其中提到的使用情况如下所示。

验证场景：细粒度专家并行（EP）方案在昇腾 NPU 平台上进行了功能验证
技术方案：将通信与计算融合到单一流水线内核中，实现通信 – 计算重叠
开源贡献：基于该方案开源了 MegaMoE 内核实现（作为 DeepGEMM 组件）

这为国产芯片技术带来了巨大的好处。

首先，排在第一的具体收益表现体现在性能提升上。推理工作负载加速 1.50~1.73×，延迟敏感场景最高 1.96×。

其次是带宽优化方面，降低对互连带宽的依赖，给出的公式是：C/B ≤ 2d = 6144 FLOPs/Byte。

接着是架构建议方面，DeepSeek 提出，通信平衡、功耗预算、通信原语优化等硬件设计建议。

最后是软件协同方面，通过 TileLang DSL 实现跨平台高效内核开发，降低国产芯片适配成本。

无独有偶，今天还有不少人传出，美团也在采用国产算力。

文章配图参见 https://mp.weixin.qq.com/s/GxA_ssCt_DZ9s0dmGw-tCg。

一切的一切，预示着适配并成功运行在国产算力集群上，而非仅仅停留在理论层面。

我们以前喊着去 IOE，现在我们可以说出，中国算力正式开启“去N化”，具有非常大的且长远的战略价值。

业余草公众号

最后，欢迎关注我的个人微信公众号：业余草（yyucao）！可加作者微信号：xttblog2。备注：“1”，添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注！后续有精彩内容会第一时间发给您！原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系！

本文原文出处：业余草： » DeepSeek V4 发布，使用华为昇腾 NPU 芯片，开启去 N 化！

一	二	三	四	五	六	日
« 3月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

相关文章推荐