严峻警示

工具调用是大模型最软的肋

2026年3月15日 · 302 字 · AI 趋势日报深度解读

WildToolBench 是目前最接近真实工作流的工具调用评测基准之一。它模拟真实用户行为——不是整洁的单轮调用，而是多轮、意图模糊、工具组合嵌套的复杂会话。测试结果揭示：即便是当前最强的大模型，在工具调用场景下的整体会话准确率也不超过 15%，绝大多数模型集中在 5%-8% 区间。

深度剖析②｜Skill 从"工具"升级为"数字资产"

范式跃迁

WildToolBench工具调用LLM Agent评测基准多轮会话