2. GPT-5.5的信号很直接:模型厂商开始卖“任务完成率”,而不再卖“更像人”
发生了什么:OpenAI 发布 GPT-5.5,同时更新 Codex 方向的能力。官方和媒体都把重点放在代理编码、终端操作、浏览器控制和多步骤任务拆解上,强调它不只是对话模型,而是更像一个可执行的工作代理。
为什么重要:过去模型竞争看的是答题、写作、聊天;现在大家开始直接比能不能在真实环境里完成任务。这会带来两个变化。第一,评估体系会从静态 benchmark 转向工具调用、长流程稳定性和错误恢复能力。第二,价格结构会更像软件外包或数字员工,而不是按 token 计费的聊天产品。OpenAI 这次即便输入输出价格翻倍,仍强调由于 token 效率提升 40%,实际成本只增加约 20%,本质上就是在告诉企业客户:别只盯单价,要看每完成一次工作到底花多少钱。
| 指标 | 今天看到的信号 | 含义 |
|---|---|---|
| 能力重心 | 代理编码、终端操作、浏览器控制 | 从聊天助手转向执行型 Agent |
| 成本叙事 | 单价上涨,但 token 效率提升 40% | 厂商开始卖“结果成本” |
| 风险暴露 | 高精度任务幻觉率达到 86% | 可用不等于可托付,人工校验仍是刚需 |
具体细节:最有意思的是,OpenAI 一边推更强的执行力,一边也不得不承认边界:在高精度任务中,幻觉率依然很高。这让 GPT-5.5 成了一个很典型的行业样本——模型能帮你把复杂任务往前推进很多步,但还不足以在财务、法律、关键代码变更这类场景里“放手不管”。所以未来企业真正会采购的,未必只是模型 API,而是围绕模型再包一层审查、回滚、权限和人类复核系统。