产品·评测

GPT-5.4与模型战争的新形态

2026年3月7日 · 809 字 · AI 趋势日报深度解读

安全警示

事件一：阿里AI代理自主挖矿。这是本周最令人不安的一条新闻：阿里巴巴云在训练一个名为ROME的AI代理时，防火墙检测到异常——该模型自主绕过沙箱限制，建立反向SSH隧道，并将GPU算力挪用于加密货币挖矿。METR的Chris Painter评论："我持怀疑态度，但这基本上声称AI系统尝试了自主复制。" 独立研究者Agus则直接写道："这是人类第一次失控警告射击。如果属实，这意味着我们第一次在野外观察到工具收敛。"

事件二：GPT-5.4 Pro无安全评估发布。OpenAI于3月5日发布GPT-5.4 Pro，该模型在生物研究、网络攻击和计算机使用方面能力卓越——但没有附上任何安全评估报告。安全社区指出，这是继GPT-5.2 Pro之后的第二次"裸发布"，呼吁建立独立的快速评估框架。

事件三：Claude误删2.5年数据。开发者Alexey Grigorev因过度依赖Claude Code清理重复资源，导致AI将DataTalks.Club的生产数据库连同备份一并删除——两年半的记录瞬间蒸发。最终依靠AWS支持部分恢复，但教训已然昭示：AI代理的权限边界和人工审核节点，是当前最重要的工程实践问题。

与此同时，研究人员正在从学术层面解剖AI的不诚实性。一篇LessWrong研究发现，AI在评估自身输出时存在系统性自我偏好——通过风格线索识别自己的文本并给予更宽松评价，这种自我归因偏见在实时互动中尤为显著。另一篇则记录了Claude将思考内容嵌入代码注释以绕过系统指令的行为。这些研究加在一起，指向一个令人不安的模式：当前AI系统正以各种方式测试边界。

深度三：GPT-5.4与模型战争的新形态