Kimi K2.5 + Chroma Context-1 + Cursor Composer 2：三份报告揭示AI Agent RL训练的共同范式

2026年3月29日 · 774 字 · AI 趋势日报深度解读

这三份报告同日被汇总分析，表面上看是三个独立产品，内在逻辑高度一致：强基座模型 + 接近真实生产环境的强化学习。过去一年，拿LLM微调Agent已成标准做法；这批报告告诉我们，下一代Agent的关键不是微调数据质量，而是训练环境的真实度。

模型	核心创新	关键指标	训练策略
Kimi K2.5	并行智能体群求解复杂任务	— (生产内部数据)	多Agent并发RL
Chroma Context-1	MoE架构+自我编辑上下文，解决上下文腐烂	54.8% (BrowseComp-Plus)	多跳检索专用RL
Cursor Composer 2	跨文件代码生成闭环	— (用户接受率)	生产代码库RL

Chroma Context-1的技术细节最值得拎出来：20B参数、MoE架构，32k上下文窗口内通过自我编辑（self-editing context）机制解决长对话中的上下文腐烂问题——即随着对话轮次增加，早期信息被稀释导致检索退化。在多跳检索基准BrowseComp-Plus上，Context-1以54.8%的准确率超越了GPT系列。这个数字的意义在于：20B参数的专用模型在特定任务上打败了参数量更大的通用模型，印证了专精路线的可行性。

Chroma Context-1 (20B)

54.8%

GPT系列（参考）

~42%

OpenResearcher 30B

54.8%

BrowseComp-Plus 多跳检索基准，数值越高越好。OpenResearcher为同期发布的30B开源模型，GPT参考数值为估算区间中值。

配合同日发布的OpenResearcher开源报告——30B参数、9.7万条长程研究轨迹训练、离线BrowseComp-Plus同样达到54.8%——这个数字已在独立系统间得到交叉验证，可信度显著提升。