工具调用是大模型最软的肋
WildToolBench 是目前最接近真实工作流的工具调用评测基准之一。它模拟真实用户行为——不是整洁的单轮调用,而是多轮、意图模糊、工具组合嵌套的复杂会话。测试结果揭示:即便是当前最强的大模型,在工具调用场景下的整体会话准确率也不超过 15%,绝大多数模型集中在 5%-8% 区间。
深度剖析②|Skill 从"工具"升级为"数字资产"
范式跃迁
WildToolBench工具调用LLM Agent评测基准多轮会话
WildToolBench 是目前最接近真实工作流的工具调用评测基准之一。它模拟真实用户行为——不是整洁的单轮调用,而是多轮、意图模糊、工具组合嵌套的复杂会话。测试结果揭示:即便是当前最强的大模型,在工具调用场景下的整体会话准确率也不超过 15%,绝大多数模型集中在 5%-8% 区间。