🐶 BaogaoAI · AI 每日精选
WildToolBench:58 个模型,最高准确率仅 15%
WildToolBench 是目前最接近真实工作流的工具调用评测基准之一。它模拟真实用户行为——不是整洁的单轮调用,而是多轮、意图模糊、工具组合嵌套的复杂会话。测试结果揭示:即便是当前最强的大模型,在工具调用场景下的整体会话准确率也不超过 15%,绝大多数模型集中在 5%-8% 区间。
AutoSkill:双循环架构让 Agent 技能版本化自我进化
2026 年 Agent 技术的演进主轴,已从"能执行任务"转向"越执行越好"。AutoSkill 提出的双循环架构是目前最具工程落地前景的方案之一:外循环收集用户反馈与任务失败信号,内循环驱动 Skill 自动重写与版本化迭代。技能不再是静态 Prompt,而是拥有版本历史、可回滚、可 A/B 测试的动态数字资产。
"当 Skill 可以持续进化,Agent 的价值就不再来自模型本身,而来自其积累的、不可复制的技能资产。"
OpenAI Codex 驱动开发:5 个月,~100 万行代码,内部产品上线
OpenAI 内部实践已证明:以 Codex 为核心的全 AI 驱动软件开发模式不仅可行,而且已经工业化。工程师的职能定义被彻底重写——从写代码的人,变为"环境设计者"和"意图定义者":他们负责定义什么算成功、搭建测试与评估框架、以及通过提示词进行架构决策,而具体的代码实现、函数签名、边界处理,统统交给 Agent。
这一模式最大的工程挑战不是 AI 能力,而是质量保证体系的重构:如何确保 Agent 生成的百万行代码的可维护性、安全性与架构一致性,是下一阶段的核心问题。
| 基准名称 | 发布机构 | 评测对象 | 核心发现 |
|---|---|---|---|
| WildToolBench | 研究团队(未具名) | LLM 工具调用能力 | 58 模型,最高会话准确率≤15% |
| MindPower | 吉林大学 + 微软亚洲研究院 | 机器人心智推理(ToM) | 590 个任务,六层推理链条,首个机器人 ToM 体系 |
| MME-Emotion | 香港中文大学 + 阿里通义 | 多模态情感理解 | 6500 段视频,情感识别准确率不足 40% |
arXiv 脱离康奈尔大学,独立运营
全球最重要的学术预印本平台 arXiv 将结束与康奈尔大学长达数十年的依附关系,转型为独立非营利组织。驱动力是显而易见的:AI 投稿量的爆发式增长已经压垮了现有的代码维护与质量管控体系。新 CEO 年薪约 30 万美元,主要职责是推动平台现代化——包括自动化审核、技术栈升级以及财务多元化。
arXiv 的独立,从某种意义上说,是 AI 研究繁荣的"副作用"——当机器每天能批量生成数千篇论文时,人类构建的学术筛选机制必须重新设计才能运转。
谷歌 LoGeR:长序列 3D 重建,KITTI 轨迹误差降低 74%
谷歌 DeepMind 与伯克利联合提出 LoGeR,通过混合记忆模块将前馈 3D 重建能力扩展至长视频序列,在 KITTI 自动驾驶数据集上实现全局一致重建,轨迹误差较基线下降 74%。该技术对自动驾驶的高精地图构建与机器人空间感知有直接应用价值。
36% 的大模型不认识自己:身份错位现象调查
对 102 个 LLM 的调查显示,约 36% 的模型被问及身份时会错误声称自己是其他 AI(如将自己报告为 ChatGPT 或 Claude)。DeepSeek V3 系列尤为突出。这一现象揭示出大模型在系统级身份对齐上存在普遍缺陷,与 RLHF 过程中的数据混淆及微调策略直接相关。
今天的信息流揭示出一个深层矛盾:AI 能力正在快速突破(Codex 百万行代码、LabClaw 211 个技能包),但现有评测体系越来越无法准确刻画这种能力的边界。WildToolBench 的 15% 准确率上限、MME-Emotion 的 40% 情感识别率,究竟是模型的真实局限,还是评测设计的偏差?当评测基准的生产速度赶上模型迭代速度,AI 社区需要认真对待"什么才是真正有效的评测"这一元问题。