104B参数Ling-2.6-flash和端侧Sage,正在把竞争拉回“每次任务花多少钱”
如果说前两条新闻讲的是研发端和资本端的压力,那么今天在产品端最明确的趋势,就是效率指标被摆到了台前。蚂蚁百灵发布Ling-2.6-flash,参数量104B、激活参数7.4B,核心卖点不是“更大”,而是更快更省,输入价格0.1美元/百万tokens、输出0.3美元/百万tokens。这个定价姿态很说明问题:厂商开始默认客户会精打细算地核对单位成本,而不是只看榜单名次。
另一边,商汤绝影Sage把叙事推进到了端侧智能体。它在PinchBench上拿到94%的任务完成率,甚至号称超过一些云端模型,并已落到英伟达OrinX平台。这意味着过去“端侧一定弱、云端一定强”的直觉正在被松动:只要任务定义清晰、工具链合适,端侧方案在时延、隐私和成本上反而可能更有优势。
把这两件事连起来看,就能理解大模型涨价与价值战为什么会发生。智能体时代的token消耗是指数级的,便宜但跑不动、强大但用不起,都会被市场迅速淘汰。接下来比拼的,不是谁喊出更惊人的参数规模,而是谁能在真实场景里给出更低的单位成本、更高的完成率,以及更稳定的部署方式。