GPT 5.6 震撼发布，性能比肩 Claude Mythos 5

公告：“业余草”微信公众号 AI 中转站提供免费体验，点击链接 https://unity2.ai/register?ref=3XTnndN2 进行访问，支持 Claude、ChatGPT、Gemini 等最新模型！关注业余草微信公众号，添加作者微信：xttblog2！
本博客日IP超过2000，PV 3000 左右，急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包，请加博主新的微信号：xttblog2，之前的微信号好友位已满，备注：返现
受密码保护的文章请关注“业余草”公众号，回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽，请关注文末小程序
视频教程免费领

【腾讯云】1核2G5M轻量应用服务器50元首年，高性价比，助您轻松上云

前段时间，Claude 发布的两款最强模型由于某些原因还没有解禁，OpenAI 就着急着抢用户了。

这不，就在昨天，6 月 26 日，OpenAI 悄悄放出了一个大招，新一代模型 GPT-5.6 系列正式发布了。

虽然，GPT-5.6 震撼发布了，AI 也开始“自己管理 AI”，但它同样被美国政府“限流”了。

这就是为什么你兴冲冲地打开 ChatGPT 或者 API 后台，准备第一时间体验，却会发现，根本用不了。

因为这次发布最反常、也最引人深思的地方在于，应美国政府的要求，GPT-5.6 目前只对大约 20 家经过政府审批的“御用”合作伙伴开放。普通开发者和 ChatGPT 用户，暂时只能干瞪眼。

美国的“限流”不是啥新鲜事了，早前就有一些媒体爆出，某些最强最新模型必须要受到监管才能对外放开。于是乎，一些老外人士已经开始不相信闭源模型了。但说归说，牢骚归牢骚，接下来，我们还是来深度扒一扒这次发布背后的门道吧。

Sol、Terra、Luna 全家桶

OpenAI 这次抛弃了以前 Pro/Mini 的命名方式，搞了一套极具宇宙浪漫主义的新规则，数字代表代际，后缀代表固定的能力档位，灵感来自太阳（Sol）、地球（Terra）和月亮（Luna）。在模型发布上，首次搞出了 GPT-5.6 的“全家桶”矩阵。

Sol（太阳）：旗舰级，性能天花板，代表 OpenAI 目前的最高技术水平。
Terra（地球）：日常级，性能接近上一代 GPT-5.5，但价格直接砍半。
Luna（月亮）：经济级，主打便宜、快速。

看看 API 定价，OpenAI 这次是真的想把开发者“拿捏”住。

Sol：输入 $5 / 输出 $30 （每百万 token）
Terra：输入 $2.5 / 输出 $15
Luna：输入 $1 / 输出 $6

对于企业来说，Terra 的性价比简直无敌。性能不掉队，成本腰斩，非常适合跑大量日常推理任务的团队；而 Luna 则是高吞吐、对成本极度敏感场景的福音。

AI 开始自己管理 AI

如果说 Terra 和 Luna 是为了抢占中低端市场，那 Sol 就是为了秀肌肉。

Sol 新增了两个极其硬核的模式。

Max 模式：让模型花更长的时间进行深度推理，死磕复杂难题。
Ultra 模式：这才是真正的王炸。在这个模式下，模型会调用多个子 Agent 并行处理任务。相当于一个“包工头” AI，自己把复杂任务拆解，分配给一组“打工人” AI 去干，最后汇总结果。

在 OpenAI 公布的 Terminal-Bench 2.1（测试命令行工作流的编程基准）上，Sol Ultra 直接拿下了 91.9% 的高分，不仅碾压了自家兄弟 Sol（88.8%），也超过了 Claude Mythos 5（88%）和 Google Gemini 3.1 Pro Preview（70.7%）。在网络安全方面，Sol 在 ExploitBench 上用大约三分之一的 token 就达到了 Mythos Preview 的水平。

文章配图参见 https://mp.weixin.qq.com/s/WZtFTbXtCpf2RZBhP-nJ-A。

这意味着什么？

意味着开发者以后可能不需要自己辛辛苦苦搭 Agent 编排框架了。复杂的多步骤任务，直接甩给 Sol Ultra，它自己拆解、分配、汇总。这和 Anthropic 在 Claude 上推的 Agent 能力、Cursor 在 IDE 里做的 Background Agent 方向完全一致，大家都在抢占 AI 自己管理 AI 的生态位。

另外，官方还说了，7 月份 Sol 还会上线 Cerebras 硬件加速版本，推理速度能达到恐怖的每秒 750 个 token。

为何限流？

回到开头的问题，这么强的模型，为什么不让普通人用？

核心原因就两个字，安全。

在 Hacker News 等极客社区，关于“美国政府逐一审批 GPT-5.6 使用者”的讨论炸开了锅。很多人认为，这标志着 AI 监管进入了一个新纪元，模型能力越强，监管介入越深。

OpenAI 这次在安全上确实下了血本。他们投入了超过 70 万 A100 等效 GPU 小时做自动化红队测试，专门寻找那些能跨场景通用的越狱攻击。模型内置了拒绝机制，实时分类器会在生成过程中检测网络安全和生物领域的滥用行为，可疑输出会被立刻暂停，交给一个更大的推理模型复审。

按照 OpenAI 自己的准备框架评估，Sol 的网络安全能力被定级为高，但没有达到“关键”级别。

翻译过来就是，它能帮安全专家找浏览器漏洞、找攻击基础组件（exploit primitive），但在测试条件下，它还没法自主完成一整套完整的攻击链。

OpenAI 把这解读为一个积极信号，模型更擅长帮防守方“找洞补锅”，而不是帮攻击方搞破坏。但这个判断是否经得起现实世界的检验？这也就是为什么需要这 20 家“御用”伙伴在预览期去真实场景里测试的原因。

普通人什么时候能用上？

对于普通 ChatGPT 用户来说，最关心的肯定是：我什么时候能用上？

目前，OpenAI 官方给出的说法是“计划在未来几周内全面开放”。据 Axios 等媒体报道，下周就会增加更多客户。但至于 ChatGPT 网页端和 App 端什么时候上线，目前还没有明确的时间表。

写在最后

GPT-5.6 的发布，不仅仅是一次模型的迭代，更像是一次 AI 行业发展模式的预演。

当 AI 的能力强到需要监管亲自下场“限流”审批时，我们或许真的该意识到，通用人工智能（AGI）的脚步，比我们想象的还要近。

Sol 的 Ultra 模式让 AI 学会了“排兵布阵”，而 Terra 和 Luna 则把 AI 的成本打到了地板价。在这个“日、地、月”三足鼎立的矩阵里，OpenAI 不知道又要玩出什么花样，Claude 又该如何接招，国内模型的下一个新版本发布可能是谁？

业余草公众号

最后，欢迎关注我的个人微信公众号：业余草（yyucao）！可加作者微信号：xttblog2。备注：“1”，添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注！后续有精彩内容会第一时间发给您！原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系！

本文原文出处：业余草： » GPT 5.6 震撼发布，性能比肩 Claude Mythos 5

一	二	三	四	五	六	日
« 5月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Sol、Terra、Luna 全家桶

AI 开始自己管理 AI

为何限流？

普通人什么时候能用上？

写在最后

相关文章推荐