Anthropic抓获三家实验室蒸馏Claude超1600万次
Claude电脑操控OSWorld达72.5%人类水平
Anthropic公开点名:DeepSeek、Moonshot、MiniMax用2.4万欺诈账号向Claude发动1600万次蒸馏攻击
这是AI安全领域迄今最具体的"能力盗窃"公开披露。Anthropic的报告称,攻击者重点瞄准Claude的推理、工具使用和编程能力——恰好是最难通过自有数据从头训练的能力,也是近年来Claude定价最贵的差异化能力。
技术上,攻击者通过"水螅集群"(hydra cluster)绕过IP封锁和地区限制,账号被封后自动轮换,1600万次交互在系统层面形同一次大规模标注工程。问题的本质在于:API访问协议中没有任何条款能有效阻止用输出来训练竞争模型,技术检测永远滞后于绕过手段。
Anthropic将此定性为国家安全风险:若蒸馏出的模型不含Claude原有的安全护栏,相当于在全球分发了一个"去阉割"版的顶级推理能力。文章同时呼吁出口管制政策协同跟上——这是将AI能力与芯片出口管制并列的罕见公开表态,也是对中国三家实验室的直接指控。预计后续监管响应将在数月内出现。
Claude收购Vercept、OSWorld得分从15%飙至72.5%——电脑操控正式进入可用区间
Vercept的核心命题是:让AI真正完成复杂任务,感知与交互是瓶颈,不是智力。这与传统"更大模型=更强能力"的路径形成明显对比。收购后,Vercept团队全部并入Anthropic,外部产品将在数周内下线,团队精力将聚焦于提升Claude在真实桌面环境中的跨工具多步骤任务能力。
72.5%这个数字需要被正确解读:这不是"通用电脑操控已解决",而是在特定任务子集(表格操作、网页表单)接近人类水准。更复杂的跨应用推理、状态感知、错误恢复仍有明显差距。但15%→72.5%的跨越只用了约15个月,斜率比大多数人预期的要陡得多。
商业逻辑很清晰:电脑操控是把Claude从"回答问题的工具"变成"执行任务的员工"的关键一跳。同日Anthropic宣布成立公共利益研究院(由Jack Clark领导),统筹研究AI对就业的冲击——两件事放在一起,公司似乎在同步加速能力与准备应对后果。