1. 长程任务开始取代聊天体验,模型竞争的标尺变了
发生了什么模型能力Agent
智谱开源GLM-5.2,把卖点直接放在长程任务上:1M上下文窗口、面向复杂软件工程、在Code Arena盲测中拿到全球可用模型第一。几乎同一时间,GitHub Copilot和VS Code团队都在谈另一件事:不是再堆一个更会说话的模型,而是通过上下文缓存、工具搜索和HyDRA路由,让模型在真实开发流程里更快、更便宜、更稳。
这件事重要,是因为行业已经不再按“回答是否聪明”来定胜负,而是在看模型能不能把一段跨步骤、跨文件、跨工具的工作做完。1M上下文本身不是终点,终点是让模型在长链路里别失忆、别跑偏、别把成本打爆。GLM-5.2强调IndexShare架构和Slime训练框架,Copilot强调缓存命中和模型路由,本质上都在解决同一个问题:怎样把大模型从一个对话引擎,改造成一个可连续执行的工作引擎。
细节也很说明问题。GLM-5.2被多篇报道反复提到支持国产算力平台,说明它瞄准的不是单纯开源口碑,而是企业部署可行性。Vercel新开源的Eve则从框架层面补齐了这一趋势:它把Agent定义成目录文件,内建持久执行、沙盒计算和人工审批,且Vercel内部已跑了100多个代理。模型、路由和编排框架在同一天集中出现,说明“长程执行”正在从能力宣传变成工程共识。
读法提示:今天真正的竞争,不是“谁参数更大”,而是“谁能把长任务做成产品能力”。