Java基础、中级、高级、架构面试资料

GPT 5.6 震撼发布,性能比肩 Claude Mythos 5

业余杂谈 herman 13浏览
公告:“业余草”微信公众号 AI 中转站提供免费体验,点击链接 https://unity2.ai/register?ref=3XTnndN2 进行访问,支持 Claude、ChatGPT、Gemini 等最新模型!关注业余草微信公众号,添加作者微信:xttblog2!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
【腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

前段时间,Claude 发布的两款最强模型由于某些原因还没有解禁,OpenAI 就着急着抢用户了。

这不,就在昨天,6 月 26 日,OpenAI 悄悄放出了一个大招,新一代模型 GPT-5.6 系列正式发布了

虽然,GPT-5.6 震撼发布了,AI 也开始“自己管理 AI”,但它同样被美国政府“限流”了。

这就是为什么你兴冲冲地打开 ChatGPT 或者 API 后台,准备第一时间体验,却会发现,根本用不了。

因为这次发布最反常、也最引人深思的地方在于,应美国政府的要求,GPT-5.6 目前只对大约 20 家经过政府审批的“御用”合作伙伴开放。普通开发者和 ChatGPT 用户,暂时只能干瞪眼。

美国的“限流”不是啥新鲜事了,早前就有一些媒体爆出,某些最强最新模型必须要受到监管才能对外放开。于是乎,一些老外人士已经开始不相信闭源模型了。但说归说,牢骚归牢骚,接下来,我们还是来深度扒一扒这次发布背后的门道吧。

Sol、Terra、Luna 全家桶

OpenAI 这次抛弃了以前 Pro/Mini 的命名方式,搞了一套极具宇宙浪漫主义的新规则,数字代表代际,后缀代表固定的能力档位,灵感来自太阳(Sol)、地球(Terra)和月亮(Luna)。在模型发布上,首次搞出了 GPT-5.6 的“全家桶”矩阵。

  • Sol(太阳):旗舰级,性能天花板,代表 OpenAI 目前的最高技术水平。
  • Terra(地球):日常级,性能接近上一代 GPT-5.5,但价格直接砍半。
  • Luna(月亮):经济级,主打便宜、快速。

看看 API 定价,OpenAI 这次是真的想把开发者“拿捏”住。

  • Sol:输入 $5 / 输出 $30 (每百万 token)
  • Terra:输入 $2.5 / 输出 $15
  • Luna:输入 $1 / 输出 $6

对于企业来说,Terra 的性价比简直无敌。性能不掉队,成本腰斩,非常适合跑大量日常推理任务的团队;而 Luna 则是高吞吐、对成本极度敏感场景的福音

AI 开始自己管理 AI

如果说 Terra 和 Luna 是为了抢占中低端市场,那 Sol 就是为了秀肌肉。

Sol 新增了两个极其硬核的模式。

  1. Max 模式:让模型花更长的时间进行深度推理,死磕复杂难题。
  2. Ultra 模式:这才是真正的王炸。在这个模式下,模型会调用多个子 Agent 并行处理任务。相当于一个“包工头” AI,自己把复杂任务拆解,分配给一组“打工人” AI 去干,最后汇总结果。

在 OpenAI 公布的 Terminal-Bench 2.1(测试命令行工作流的编程基准)上,Sol Ultra 直接拿下了 91.9% 的高分,不仅碾压了自家兄弟 Sol(88.8%),也超过了 Claude Mythos 5(88%)和 Google Gemini 3.1 Pro Preview(70.7%)。在网络安全方面,Sol 在 ExploitBench 上用大约三分之一的 token 就达到了 Mythos Preview 的水平。

文章配图参见 https://mp.weixin.qq.com/s/WZtFTbXtCpf2RZBhP-nJ-A

这意味着什么?

意味着开发者以后可能不需要自己辛辛苦苦搭 Agent 编排框架了。复杂的多步骤任务,直接甩给 Sol Ultra,它自己拆解、分配、汇总。这和 Anthropic 在 Claude 上推的 Agent 能力、Cursor 在 IDE 里做的 Background Agent 方向完全一致,大家都在抢占 AI 自己管理 AI 的生态位。

另外,官方还说了,7 月份 Sol 还会上线 Cerebras 硬件加速版本,推理速度能达到恐怖的每秒 750 个 token

为何限流?

回到开头的问题,这么强的模型,为什么不让普通人用

核心原因就两个字,安全

在 Hacker News 等极客社区,关于“美国政府逐一审批 GPT-5.6 使用者”的讨论炸开了锅。很多人认为,这标志着 AI 监管进入了一个新纪元,模型能力越强,监管介入越深

OpenAI 这次在安全上确实下了血本。他们投入了超过 70 万 A100 等效 GPU 小时做自动化红队测试,专门寻找那些能跨场景通用的越狱攻击。模型内置了拒绝机制,实时分类器会在生成过程中检测网络安全和生物领域的滥用行为,可疑输出会被立刻暂停,交给一个更大的推理模型复审。

按照 OpenAI 自己的准备框架评估,Sol 的网络安全能力被定级为,但没有达到“关键”级别。

翻译过来就是,它能帮安全专家找浏览器漏洞、找攻击基础组件(exploit primitive),但在测试条件下,它还没法自主完成一整套完整的攻击链。

OpenAI 把这解读为一个积极信号,模型更擅长帮防守方“找洞补锅”,而不是帮攻击方搞破坏。但这个判断是否经得起现实世界的检验?这也就是为什么需要这 20 家“御用”伙伴在预览期去真实场景里测试的原因。

普通人什么时候能用上?

对于普通 ChatGPT 用户来说,最关心的肯定是:我什么时候能用上?

目前,OpenAI 官方给出的说法是“计划在未来几周内全面开放”。据 Axios 等媒体报道,下周就会增加更多客户。但至于 ChatGPT 网页端和 App 端什么时候上线,目前还没有明确的时间表。

写在最后

GPT-5.6 的发布,不仅仅是一次模型的迭代,更像是一次 AI 行业发展模式的预演。

当 AI 的能力强到需要监管亲自下场“限流”审批时,我们或许真的该意识到,通用人工智能(AGI)的脚步,比我们想象的还要近

Sol 的 Ultra 模式让 AI 学会了“排兵布阵”,而 Terra 和 Luna 则把 AI 的成本打到了地板价。在这个“日、地、月”三足鼎立的矩阵里,OpenAI 不知道又要玩出什么花样,Claude 又该如何接招,国内模型的下一个新版本发布可能是谁?

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » GPT 5.6 震撼发布,性能比肩 Claude Mythos 5