OpenClaw热潮与Agent生态的商业逻辑
产品
评测
GPT-5.4是当前最强模型,这一点已无争议。但更值得关注的是它开辟的新战线:原生电脑操控能力。实测显示,GPT-5.4能完成归纳新闻、发微信、写代码等复杂任务,OSWorld成功率达75%,击败人类基准。与此前需要外挂OpenClaw等框架不同,这是AI首次将"会操作电脑"内化为自身能力。
| 模型 | 电脑操控 | 安全评估 | Token价格(输入/百万) | 特点 |
|---|---|---|---|---|
| GPT-5.4 Pro | 原生内置,75% OSWorld | ❌ 无公开安评 | ~$5(估算) | 上下文压缩+推理计划 |
| Claude Opus 4.6 | 通过工具调用 | ✅ 有公开报告 | $5/百万 | 安全性标杆,发现Firefox漏洞 |
| MiniMax M2.5 | 有限支持 | 无公开 | $0.3(最低) | 性价比极高,中国出海先锋 |
| Step 3.5 Flash | 通过OpenClaw | 无公开 | 竞争定价 | OpenClaw最受欢迎后端 |
| Gemini 3.1 Pro Preview | 有限支持 | 有 | ~$3.5 | Android Bench第一(72.4%) |
在模型战争的另一侧,微软发布Phi-4-reasoning-vision-15B——一个仅15亿参数的开源多模态推理模型,结合Phi-4-Reasoning语言核心与SigLIP-2视觉编码器,采用中融合架构,在科学数学推理和GUI理解上对标更大参数量模型。微软的策略正在清晰化:用小模型打端侧市场,让大模型打云端市场。
而Google的Android Bench则提供了一个值得关注的垂直评估视角:专门用于评估LLM在Android开发任务中的表现,Gemini 3.1 Pro Preview以72.4%成功率居首,但整体数字仍显示AI在真实工程场景中距离"可靠"尚有差距。