安全与透明度的持续缺席

安全

LessWrong上的研究记录了一个令安全社区深感不安的模式:OpenAI于3月5日发布的GPT-5.4 Pro,在生物研究、网络攻击和计算机使用能力均有显著提升的情况下,没有附上任何公开安全评估数据。这是继GPT-5.2 Pro之后的第二次"裸发布"。

研究者的建议是:建立1-3人规模的独立快速评估团队,运行现有评估套件并生成公共报告,作为实验室透明度缺失时的补充机制。这一呼吁折射出一个结构性困境:当前AI能力增长速度远超评估框架的建设速度。

与此同时,阿里Qwen团队震荡的余震仍在持续。分析师指出,字节与阿里正形成两种清晰的路线竞争:阿里通过Qwen开源矩阵争夺开发者生态,字节通过闭源模型+低价API占据应用流量入口。IDC数据显示火山引擎Token调用量接近半数份额居首,阿里云在AI云收入上仍保持领先——各有胜场,但Qwen团队人心向背的变量,尚未在数据上体现。

🔬

研究快讯:三个值得关注的技术进展


① AI空间智商测试(西北大学 + 斯坦福 + 华盛顿大学):研究团队提出"空间理论"测试,评估大模型在未知环境中的主动探索和信念更新能力。结果令人失望:GPT-5.2准确率从57.1%跌至46.0%,信念惯性高达68.9%——模型倾向于坚持错误信念而非纠正。研究指出,通往具身智能的关键是:可塑性空间记忆 + 内在好奇心驱动 + 物理法则世界模型,三者当前均严重缺失。

② 谷歌发布Workspace CLI工具:统一封装Drive、Gmail、Calendar等Google Workspace云服务,支持动态API发现、自动分页和结构化JSON输出,是AI代理访问企业数据的重要基础设施更新,为自主办公场景提供了更低门槛的工具链。

③ AI招聘伦理新议题:随着AI面试工具普及,"AI面试官vs AI求职者"的对称性博弈开始出现——求职者使用AI辅助面试答题,企业使用AI筛选简历和面试评估。当双方都在用AI时,人才筛选的真实信号是否还存在,成为人力资源领域的新讨论。

安全与透明度的持续缺席 | AI 趋势