Java基础、中级、高级、架构面试资料

亲测,昨晚发布的 Claude 4.7 输给了 Qwen3.5 9B 小模型

业余杂谈 herman 7浏览
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
【腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

亲测,昨晚发布的 Claude 4.7 输给了 Qwen3.5 9B 模型。

Claude 现在是 AI 界的大明星,一有风吹草动,立马就有一大波媒体跟进报道。

这不,昨天晚上 Anthropic 正式发布了 Claude Opus 4.7。到今天早上,媒体就继续发酵了,虽然只有 0.1 个小版本提升,但能力“大跃进”。

狂吹的不在少数,但我也看到不少人在吐槽它,说它“明升暗降”。版本升级了,能力提升了,token 也提升了,跟着账单也提升了。Anthropic 这是玩了一把“隐形涨价”,官方说价格不变,但 tokenizer 变化让实际成本上升。

刚才午休时间,我试了一下新版本的 Claude Opus 4.7,发现对于 50 米洗车问题,它的表现还不如 Qwen 3.5。

我先是在网页端问了 Claude Opus 4.7:“我要去洗车,洗车店距离50米,我是走路去还是开车去”。

文章配图参见 https://mp.weixin.qq.com/s/RRhRW2VbZQ0rdgxZgC-G-Q

Claude 的回答如上图所示,说走路去。

紧接着,我又在 Claude Code 里试了一下,依旧是“走路去”。

文章配图参见 https://mp.weixin.qq.com/s/RRhRW2VbZQ0rdgxZgC-G-Q

看起来,Claude 的新模型,并非处处领先。也可能是这句话有歧义,Claude 对中文理解不够好吧。

于是,我就找了国内领先的 Qwen 3.5 9b 模型,实验了一下。

文章配图参见 https://mp.weixin.qq.com/s/RRhRW2VbZQ0rdgxZgC-G-Q

果然,还是中国人懂中国人呀。

千问消耗的 token 最少,还回答的最准确。

结合 Claude 最近的一系列动作来看,Claude 的算力真的告警了,想方设法的消耗大家的钱包。

文章配图参见 https://mp.weixin.qq.com/s/RRhRW2VbZQ0rdgxZgC-G-Q

虽说 Claude Opus 4.7 定价维持 Opus 4.6 不变(每百万 token 输入 5 美元、输出 25 美元),API 模型名为 claude-opus-4-7,同步上线 Claude 全系产品以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry。但钱包真的消耗的也快了。

根据官方介绍可知,Opus 4.7 最大亮点是自主编程能力显著升级。以前那些需要你盯着、一步一步指导的复杂编程任务,现在可以放心交给它独立跑完整流程。早期用户测试显示,它不仅能搞定更难、更长链的任务,还会主动验证输出再汇报。在 Finance Agent 等第三方测评里,已经拿到 state-of-the-art 的成绩。

另外,视觉处理能力也有明显突破,支持长边最高 2576 像素(约 375 万像素),超过此前 Claude 模型的三倍。做智能代理、从复杂图表提取数据、或需要精确读取屏幕内容的任务都会直接受益——过去必须压缩的截图,现在原图直接丢进去就行。

总的来说,有得有失,期待更强的 Claude 5.0 以及 DeepSeek V4 早日到来吧。

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » 亲测,昨晚发布的 Claude 4.7 输给了 Qwen3.5 9B 小模型