本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
【腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
今天有点忙,全忙着和产品聊需求去了,就不写技术了。
AI 的天可能要变了。Claude Fable 5 被迫下线了,然后我们这边的智谱 GLM 5.2 真的很顶,在多个榜单上都“遥遥领先”。在某些领域还和 Claude 4.8 和 ChatGPT 5.5 不分伯仲。
但是这几个模型,并不是想用就能用的,GLM 5.2 还需要抢。刚好最近传出 DeepSeek 也融资了一轮巨款,现在又爆出 DeepSeek V4.1 正在进行小范围的灰度内测,代码能力不容小觑,这次是真要补齐短板了吗?
DeepSeek V4.1 灰度测试
前天,也就是 6 月 15 日前后,多个科技媒体和社区开始流传一个消息,DeepSeek V4.1 已经在网页端悄然启动小范围灰度测试。在 DeepSeek 网页版(chat.deepseek.com)上遇到了 V4.1 Flash 模型。他
这部分网友们观察到两个显著变化。
第一,知识截止日期大幅跃升。从 V4 时代的 2025 年 5 月,直接跳到了 2026 年 1 月。更有其他参与灰度的用户测出了 2026 年 5 月的截止日期——这意味着 V4.1 在发布时可能拥有接近实时的世界知识。
文章配图参见 https://mp.weixin.qq.com/s/KKjH8KHFeLcnUeEYvtJOEQ。
上面这张图就是我测试出的知识截止日期。
第二点,就是代码生成能力“天差地别”。众多灰度到的用户表示,用经典的“鸬鹚 SVG”测试和新加的金门大桥 Three.js 场景进行了对比测试,给出的评价非常直接,“差别很明显,天差地别的提升”。
从社区流传的截图来看,V4.1 Flash 生成的 Three.js 场景在画面质感、光影细节和交互逻辑上,都比 V4 Pro 版本精致不少。
代码能力是 V4.1 的核心?
要理解这次升级的意义,得先回顾下 V4 的情况。
2026 年 4 月 24 日,DeepSeek 发布了 V4 预览版,凭借 1M 超长上下文、1.6T 总参数/49B 激活参数的 MoE 架构、以及 低至 1 元/百万 token 的 API 定价,在开源大模型圈引起了不小的震动。V4 Pro 在 SWE-bench Verified 编程基准测试中拿到 80.6%,与 Claude Opus 4.7 的 80.9% 仅差 0.3 个百分点。
但 V4 发布后,社区讨论最多的“槽点”恰恰也是“代码能力”。
虽然基准测试分数漂亮,但在实际开发场景中,不少开发者反馈 V4 在复杂项目理解、长代码上下文连贯性、以及前端可视化生成等方面,与 GPT-5.5、Claude Opus 4.7 等顶级闭源模型仍有明显差距。V4 的基模能力不弱,但后训练(Post-training)环节的调校还有提升空间。
此前有媒体曾报道,DeepSeek 已告知部分投资者,公司计划加快模型发布节奏,争取向行业主流水平靠拢。V4.1 选在 6 月发布,正好是 V4 上线后的第六周,这段时间足够 DeepSeek 的工程团队针对代码场景做一轮专项优化。
多模态?
可能还要再等等了。
很多人关心 V4.1 会不会补上多模态能力?这也包括我。
但从目前的灰度测试反馈来看,大概率不会。
V4 预览版发布时,无论是 Pro 还是 Flash,都是纯文本模型。虽然 App 界面曾出现过“视觉”选项的蛛丝马迹,研究员陈小康也在 X 平台上预告过多模态版本,但考虑到 DeepSeek 一贯的极致性价比策略,API 定价只有 GPT-5.5 的 1/30,多模态对算力的消耗显然与这一定位存在矛盾。
多模态对算力的要求更高了,而 DeepSeek 定价又很低,之前就饱受第三方反代的困扰,支持多模态之后这个问题有可能更严重。
再加上,华为的相关计算芯片,下半年才能大范围铺货。大家都缺算力,多模态更是算力消耗的大头。
所以,V4.1 的核心任务很清晰,不是做加法(多模态),而是做减法(补齐代码短板)。
按照 DeepSeek 的“尿性”,节前或节中发布的概率很大。尤其是这个端午节,不少模型厂商应该不会放过这个时间吧。
DeepSeek 有“节假日前发大招”的传统,2024 年 1 月 20 日(春节前)发布 R1,2026 年 4 月 24 日发布 V4。如果 V4.1 在端午前上线,正好延续这一节奏。
如果 V4.1 真的如测试反馈那样大幅提升了代码能力,AI 模型的竞争格局或许会再现变化。
结语
DeepSeek V4.1 的灰度测试,某种程度上是一次“补短板”的务实升级。
梁文锋不追求多模态的炫技,也不盲目堆参数,而是瞄准开发者最真实的痛点,代码生成质量。从多社区反馈来看,这两个月的后训练调校确实见效了。
当然,灰度测试的结果还不能等同于正式版表现。V4.1 最终能否兑现“天差地别”的承诺,还得等官方正式发布时,拿数据和实测说话。

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!
本文原文出处:业余草: » DeepSeek V4.1 灰度内测,代码能力大幅提升