DeepSeek V4.1 灰度内测，代码能力大幅提升

公告：“业余草”微信公众号 AI 中转站提供免费体验，点击链接 https://unity2.ai/register?ref=3XTnndN2 进行访问，支持 Claude、ChatGPT、Gemini 等最新模型！关注业余草微信公众号，添加作者微信：xttblog2！
本博客日IP超过2000，PV 3000 左右，急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包，请加博主新的微信号：xttblog2，之前的微信号好友位已满，备注：返现
受密码保护的文章请关注“业余草”公众号，回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽，请关注文末小程序
视频教程免费领

【腾讯云】1核2G5M轻量应用服务器50元首年，高性价比，助您轻松上云

今天有点忙，全忙着和产品聊需求去了，就不写技术了。

AI 的天可能要变了。Claude Fable 5 被迫下线了，然后我们这边的智谱 GLM 5.2 真的很顶，在多个榜单上都“遥遥领先”。在某些领域还和 Claude 4.8 和 ChatGPT 5.5 不分伯仲。

但是这几个模型，并不是想用就能用的，GLM 5.2 还需要抢。刚好最近传出 DeepSeek 也融资了一轮巨款，现在又爆出 DeepSeek V4.1 正在进行小范围的灰度内测，代码能力不容小觑，这次是真要补齐短板了吗？

DeepSeek V4.1 灰度测试

前天，也就是 6 月 15 日前后，多个科技媒体和社区开始流传一个消息，DeepSeek V4.1 已经在网页端悄然启动小范围灰度测试。在 DeepSeek 网页版（chat.deepseek.com）上遇到了 V4.1 Flash 模型。他

这部分网友们观察到两个显著变化。

第一，知识截止日期大幅跃升。从 V4 时代的 2025 年 5 月，直接跳到了 2026 年 1 月。更有其他参与灰度的用户测出了 2026 年 5 月的截止日期——这意味着 V4.1 在发布时可能拥有接近实时的世界知识。

文章配图参见 https://mp.weixin.qq.com/s/KKjH8KHFeLcnUeEYvtJOEQ。

上面这张图就是我测试出的知识截止日期。

第二点，就是代码生成能力“天差地别”。众多灰度到的用户表示，用经典的“鸬鹚 SVG”测试和新加的金门大桥 Three.js 场景进行了对比测试，给出的评价非常直接，“差别很明显，天差地别的提升”。

从社区流传的截图来看，V4.1 Flash 生成的 Three.js 场景在画面质感、光影细节和交互逻辑上，都比 V4 Pro 版本精致不少。

代码能力是 V4.1 的核心？

要理解这次升级的意义，得先回顾下 V4 的情况。

2026 年 4 月 24 日，DeepSeek 发布了 V4 预览版，凭借 1M 超长上下文、1.6T 总参数/49B 激活参数的 MoE 架构、以及 低至 1 元/百万 token 的 API 定价，在开源大模型圈引起了不小的震动。V4 Pro 在 SWE-bench Verified 编程基准测试中拿到 80.6%，与 Claude Opus 4.7 的 80.9% 仅差 0.3 个百分点。

但 V4 发布后，社区讨论最多的“槽点”恰恰也是“代码能力”。

虽然基准测试分数漂亮，但在实际开发场景中，不少开发者反馈 V4 在复杂项目理解、长代码上下文连贯性、以及前端可视化生成等方面，与 GPT-5.5、Claude Opus 4.7 等顶级闭源模型仍有明显差距。V4 的基模能力不弱，但后训练（Post-training）环节的调校还有提升空间。

此前有媒体曾报道，DeepSeek 已告知部分投资者，公司计划加快模型发布节奏，争取向行业主流水平靠拢。V4.1 选在 6 月发布，正好是 V4 上线后的第六周，这段时间足够 DeepSeek 的工程团队针对代码场景做一轮专项优化。

多模态？

可能还要再等等了。

很多人关心 V4.1 会不会补上多模态能力？这也包括我。

但从目前的灰度测试反馈来看，大概率不会。

V4 预览版发布时，无论是 Pro 还是 Flash，都是纯文本模型。虽然 App 界面曾出现过“视觉”选项的蛛丝马迹，研究员陈小康也在 X 平台上预告过多模态版本，但考虑到 DeepSeek 一贯的极致性价比策略，API 定价只有 GPT-5.5 的 1/30，多模态对算力的消耗显然与这一定位存在矛盾。

多模态对算力的要求更高了，而 DeepSeek 定价又很低，之前就饱受第三方反代的困扰，支持多模态之后这个问题有可能更严重。

再加上，华为的相关计算芯片，下半年才能大范围铺货。大家都缺算力，多模态更是算力消耗的大头。

所以，V4.1 的核心任务很清晰，不是做加法（多模态），而是做减法（补齐代码短板）。

按照 DeepSeek 的“尿性”，节前或节中发布的概率很大。尤其是这个端午节，不少模型厂商应该不会放过这个时间吧。

DeepSeek 有“节假日前发大招”的传统，2024 年 1 月 20 日（春节前）发布 R1，2026 年 4 月 24 日发布 V4。如果 V4.1 在端午前上线，正好延续这一节奏。

如果 V4.1 真的如测试反馈那样大幅提升了代码能力，AI 模型的竞争格局或许会再现变化。

结语

DeepSeek V4.1 的灰度测试，某种程度上是一次“补短板”的务实升级。

梁文锋不追求多模态的炫技，也不盲目堆参数，而是瞄准开发者最真实的痛点，代码生成质量。从多社区反馈来看，这两个月的后训练调校确实见效了。

当然，灰度测试的结果还不能等同于正式版表现。V4.1 最终能否兑现“天差地别”的承诺，还得等官方正式发布时，拿数据和实测说话。

业余草公众号

最后，欢迎关注我的个人微信公众号：业余草（yyucao）！可加作者微信号：xttblog2。备注：“1”，添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注！后续有精彩内容会第一时间发给您！原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系！

本文原文出处：业余草： » DeepSeek V4.1 灰度内测，代码能力大幅提升

一	二	三	四	五	六	日
« 5月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

DeepSeek V4.1 灰度测试

代码能力是 V4.1 的核心？

多模态？

结语

相关文章推荐