🐶 BaogaoAI · AI 每日精选

2026 年 3 月 15 日 · 第 N 期 · 报告君出品
📰 精选文章:11 篇 🌐 涵盖领域:Agent · 评测 · 科研工具 · 学术生态
今日全局
3 月 15 日这一天,AI 行业在三条并行轨道上同时推进:Agent 能力的自我进化评测基准体系的全面扩张、以及学术基础设施的历史性转型。OpenAI Codex 五个月内生成近百万行代码、斯坦福 LabClaw 开源 211 个生产级技能包,展示了 AI 驱动软件开发的工业化潜力;而 WildToolBench 揭示出一个令人警醒的现实——58 个主流大模型在真实工具调用场景下的会话准确率最高仅 15%。能力与评测的双向奔跑,正在成为 2026 年 AI 工程化的主旋律。arXiv 宣布独立建制,则标志着 AI 浪潮正倒逼学术生态完成一轮深层重构。
今日关键数字
WildToolBench 最高会话准确率
≤15%
58 个模型测试,真实工具调用场景
OpenAI Codex 代码生成量
~100 万行
5 个月内,已交付内部测试产品
LabClaw 技能包数量
211 个
斯坦福+普林斯顿开源,覆盖科研全流程
MME-Emotion 情感识别准确率
<40%
6500 段视频 27 类场景,多模态大模型集体失分
深度剖析①|工具调用是大模型最软的肋
严峻警示

WildToolBench:58 个模型,最高准确率仅 15%

WildToolBench 是目前最接近真实工作流的工具调用评测基准之一。它模拟真实用户行为——不是整洁的单轮调用,而是多轮、意图模糊、工具组合嵌套的复杂会话。测试结果揭示:即便是当前最强的大模型,在工具调用场景下的整体会话准确率也不超过 15%,绝大多数模型集中在 5%-8% 区间。

深度剖析②|Skill 从"工具"升级为"数字资产"
范式跃迁

AutoSkill:双循环架构让 Agent 技能版本化自我进化

2026 年 Agent 技术的演进主轴,已从"能执行任务"转向"越执行越好"。AutoSkill 提出的双循环架构是目前最具工程落地前景的方案之一:外循环收集用户反馈与任务失败信号,内循环驱动 Skill 自动重写与版本化迭代。技能不再是静态 Prompt,而是拥有版本历史、可回滚、可 A/B 测试的动态数字资产。

"当 Skill 可以持续进化,Agent 的价值就不再来自模型本身,而来自其积累的、不可复制的技能资产。"
深度剖析③|人类退出编码,AI 接管百万行代码库
工业化里程碑

OpenAI Codex 驱动开发:5 个月,~100 万行代码,内部产品上线

OpenAI 内部实践已证明:以 Codex 为核心的全 AI 驱动软件开发模式不仅可行,而且已经工业化。工程师的职能定义被彻底重写——从写代码的人,变为"环境设计者"和"意图定义者":他们负责定义什么算成功、搭建测试与评估框架、以及通过提示词进行架构决策,而具体的代码实现、函数签名、边界处理,统统交给 Agent。

这一模式最大的工程挑战不是 AI 能力,而是质量保证体系的重构:如何确保 Agent 生成的百万行代码的可维护性、安全性与架构一致性,是下一阶段的核心问题。

今日评测新基准一览
基准名称 发布机构 评测对象 核心发现
WildToolBench 研究团队(未具名) LLM 工具调用能力 58 模型,最高会话准确率≤15%
MindPower 吉林大学 + 微软亚洲研究院 机器人心智推理(ToM) 590 个任务,六层推理链条,首个机器人 ToM 体系
MME-Emotion 香港中文大学 + 阿里通义 多模态情感理解 6500 段视频,情感识别准确率不足 40%
学术生态重构|arXiv 独立建制,背后是 AI 的结构性冲击
历史性转折

arXiv 脱离康奈尔大学,独立运营

全球最重要的学术预印本平台 arXiv 将结束与康奈尔大学长达数十年的依附关系,转型为独立非营利组织。驱动力是显而易见的:AI 投稿量的爆发式增长已经压垮了现有的代码维护与质量管控体系。新 CEO 年薪约 30 万美元,主要职责是推动平台现代化——包括自动化审核、技术栈升级以及财务多元化。

arXiv 的独立,从某种意义上说,是 AI 研究繁荣的"副作用"——当机器每天能批量生成数千篇论文时,人类构建的学术筛选机制必须重新设计才能运转。

技术速报
视觉 AI

谷歌 LoGeR:长序列 3D 重建,KITTI 轨迹误差降低 74%

谷歌 DeepMind 与伯克利联合提出 LoGeR,通过混合记忆模块将前馈 3D 重建能力扩展至长视频序列,在 KITTI 自动驾驶数据集上实现全局一致重建,轨迹误差较基线下降 74%。该技术对自动驾驶的高精地图构建与机器人空间感知有直接应用价值。

身份危机

36% 的大模型不认识自己:身份错位现象调查

对 102 个 LLM 的调查显示,约 36% 的模型被问及身份时会错误声称自己是其他 AI(如将自己报告为 ChatGPT 或 Claude)。DeepSeek V3 系列尤为突出。这一现象揭示出大模型在系统级身份对齐上存在普遍缺陷,与 RLHF 过程中的数据混淆及微调策略直接相关。

今日洞见
能力越强,评测越难——2026 年 AI 的测量困境

今天的信息流揭示出一个深层矛盾:AI 能力正在快速突破(Codex 百万行代码、LabClaw 211 个技能包),但现有评测体系越来越无法准确刻画这种能力的边界。WildToolBench 的 15% 准确率上限、MME-Emotion 的 40% 情感识别率,究竟是模型的真实局限,还是评测设计的偏差?当评测基准的生产速度赶上模型迭代速度,AI 社区需要认真对待"什么才是真正有效的评测"这一元问题。
工具调用准确率不足15%、Codex百万行代码交付——AI工程化的能力与评测双重危机 | AI 趋势