104B参数Ling-2.6-flash和端侧Sage，正在把竞争拉回“每次任务花多少钱”

2026年4月22日 · 461 字 · AI 趋势日报深度解读

如果说前两条新闻讲的是研发端和资本端的压力，那么今天在产品端最明确的趋势，就是效率指标被摆到了台前。蚂蚁百灵发布Ling-2.6-flash，参数量104B、激活参数7.4B，核心卖点不是“更大”，而是更快更省，输入价格0.1美元/百万tokens、输出0.3美元/百万tokens。这个定价姿态很说明问题：厂商开始默认客户会精打细算地核对单位成本，而不是只看榜单名次。

另一边，商汤绝影Sage把叙事推进到了端侧智能体。它在PinchBench上拿到94%的任务完成率，甚至号称超过一些云端模型，并已落到英伟达OrinX平台。这意味着过去“端侧一定弱、云端一定强”的直觉正在被松动：只要任务定义清晰、工具链合适，端侧方案在时延、隐私和成本上反而可能更有优势。

把这两件事连起来看，就能理解大模型涨价与价值战为什么会发生。智能体时代的token消耗是指数级的，便宜但跑不动、强大但用不起，都会被市场迅速淘汰。接下来比拼的，不是谁喊出更惊人的参数规模，而是谁能在真实场景里给出更低的单位成本、更高的完成率，以及更稳定的部署方式。