2. GPT-5.5的信号很直接:模型厂商开始卖“任务完成率”,而不再卖“更像人”

发生了什么:OpenAI 发布 GPT-5.5,同时更新 Codex 方向的能力。官方和媒体都把重点放在代理编码、终端操作、浏览器控制和多步骤任务拆解上,强调它不只是对话模型,而是更像一个可执行的工作代理。

为什么重要:过去模型竞争看的是答题、写作、聊天;现在大家开始直接比能不能在真实环境里完成任务。这会带来两个变化。第一,评估体系会从静态 benchmark 转向工具调用、长流程稳定性和错误恢复能力。第二,价格结构会更像软件外包或数字员工,而不是按 token 计费的聊天产品。OpenAI 这次即便输入输出价格翻倍,仍强调由于 token 效率提升 40%,实际成本只增加约 20%,本质上就是在告诉企业客户:别只盯单价,要看每完成一次工作到底花多少钱。

指标今天看到的信号含义
能力重心代理编码、终端操作、浏览器控制从聊天助手转向执行型 Agent
成本叙事单价上涨,但 token 效率提升 40%厂商开始卖“结果成本”
风险暴露高精度任务幻觉率达到 86%可用不等于可托付,人工校验仍是刚需

具体细节:最有意思的是,OpenAI 一边推更强的执行力,一边也不得不承认边界:在高精度任务中,幻觉率依然很高。这让 GPT-5.5 成了一个很典型的行业样本——模型能帮你把复杂任务往前推进很多步,但还不足以在财务、法律、关键代码变更这类场景里“放手不管”。所以未来企业真正会采购的,未必只是模型 API,而是围绕模型再包一层审查、回滚、权限和人类复核系统。

2. GPT-5.5的信号很直接:模型厂商开始卖“任务完成率”,而不再卖“更像人” | AI 趋势