AI 每日精选|2026-04-26

DeepSeek-V4、GPT-5.5 与 Claude回退:1M上下文和86%幻觉率,把大模型竞争拉回真实交付

今天的大模型新闻不是简单的“谁又发了新版本”。真正的变化是,头部厂商都开始被迫回答同一个问题:模型到底能不能稳定、便宜、可控地干活。DeepSeek-V4把开源模型的成本效率抬到新高度,GPT-5.5把“代理执行力”推到台前,而Anthropic 对 Claude 回退的复盘则提醒所有人,用户真正感知到的不是 benchmark 峰值,而是你今天比昨天更好,还是更差。

DeepSeek-V4 上下文
1M
GPT-5.5 高精度任务幻觉率
86%
ComfyUI 最新估值
$5亿

深度解读

1. DeepSeek-V4把开源竞争从“能不能追上”改成“能不能长期压价”

发生了什么:MIT Technology ReviewSimon Willison以及多篇中文报道都指向同一个事实:DeepSeek 发布了 V4 预览版,主力的 Pro 版本达到 1.6T 参数、支持 1M 上下文,同时继续采用极具攻击性的价格策略,还新增对中国芯片和底层 kernel 栈的协同优化。

为什么重要:如果说过去开源模型的故事还是“性能越来越接近闭源”,那 V4 更关键的一步是把竞争焦点转到了效率结构。它不只是把模型做大,而是同时在混合注意力、超长上下文、MoE 路由、GPU kernels 和专家并行上一起动手,目标很明确:让高性能模型不再只属于算力最贵的那一批公司。对行业来说,这意味着闭源公司的护城河不能只靠“能力稍强一点”,还要解释为什么它值得高出许多倍的价格。

上下文窗口
1M tokens
Flash 轻量化
284B 参数
训练/推理栈
Kernel+EP V2

具体细节:除了模型本身,DeepSeek 新开源的 Tile Kernels 与 DeepEP V2很值得注意。前者覆盖门控、MoE 路由、量化和转置等核心操作,后者则重构专家并行,继续压低长上下文和大规模 MoE 的成本。再叠加昇腾超节点的适配,V4 的意义已经不只是“又一个强模型”,而是模型、编译、芯片和并行系统在同一时间点上开始成套推进。对中国 AI 产业链来说,这种协同比单个 benchmark 更重要,因为它决定了后续谁能真正把模型大规模跑起来。

2. GPT-5.5的信号很直接:模型厂商开始卖“任务完成率”,而不再卖“更像人”

发生了什么:OpenAI 发布 GPT-5.5,同时更新 Codex 方向的能力。官方和媒体都把重点放在代理编码、终端操作、浏览器控制和多步骤任务拆解上,强调它不只是对话模型,而是更像一个可执行的工作代理。

为什么重要:过去模型竞争看的是答题、写作、聊天;现在大家开始直接比能不能在真实环境里完成任务。这会带来两个变化。第一,评估体系会从静态 benchmark 转向工具调用、长流程稳定性和错误恢复能力。第二,价格结构会更像软件外包或数字员工,而不是按 token 计费的聊天产品。OpenAI 这次即便输入输出价格翻倍,仍强调由于 token 效率提升 40%,实际成本只增加约 20%,本质上就是在告诉企业客户:别只盯单价,要看每完成一次工作到底花多少钱。

指标今天看到的信号含义
能力重心代理编码、终端操作、浏览器控制从聊天助手转向执行型 Agent
成本叙事单价上涨,但 token 效率提升 40%厂商开始卖“结果成本”
风险暴露高精度任务幻觉率达到 86%可用不等于可托付,人工校验仍是刚需

具体细节:最有意思的是,OpenAI 一边推更强的执行力,一边也不得不承认边界:在高精度任务中,幻觉率依然很高。这让 GPT-5.5 成了一个很典型的行业样本——模型能帮你把复杂任务往前推进很多步,但还不足以在财务、法律、关键代码变更这类场景里“放手不管”。所以未来企业真正会采购的,未必只是模型 API,而是围绕模型再包一层审查、回滚、权限和人类复核系统。

3. Claude回退事件暴露了新竞争维度:用户现在更在意“稳定性信誉”

发生了什么:Anthropic 公开承认 Claude 最近一轮体验下降,原因包括默认推理力度下调、缓存逻辑漏洞以及系统提示词中对冗长输出的限制。与此同时,开发者社区已经出现明显不满,一些用户直接转向 OpenAI。

为什么重要:这件事的分量,不在于一次普通 bug,而在于它改变了大家对模型公司的预期。模型行业以前默认“新版本总会更强”;但随着模型越来越嵌入编程、分析和企业流程,用户更关心的是你能不能持续稳定地保持能力。如果一个模型今天写得好、明天突然变钝,再强的参数规模也会被产品层的小改动抵消。Claude 的复盘等于公开承认:决定用户体验的,已经不只是底层模型,还包括缓存策略、默认推理预算、系统提示词、流量分配这些运营细节。

推理强度下调缓存逻辑漏洞提示词冗长限制额度重置补偿扩大内部测试

具体细节:结合Anthropic PM 团队“速度文化”相关报道一起看,会发现一个更大的矛盾:Research Preview 和高速发布机制能让产品很快冲到市场前沿,但同样会放大质量控制和安全审计的压力。Claude 这次不是单纯“模型不够强”,而是典型的系统交付问题。它提醒整个行业,未来头部模型公司的品牌,不只靠研究论文建立,也会被线上回退、补偿节奏和公开复盘的诚意重塑。

快讯

ComfyUI 获得新一轮融资,估值达到 5 亿美元。这说明生成式媒体市场正在从“直接出图”转向“可控工作流”,节点式创作工具开始吃到专业生产场景的预算。

LinkedIn 推出认知记忆智能体 CMA,用情景、语义、程序三层记忆改善跨会话连续性。对招聘、销售和客服类 Agent 来说,记忆架构正变成下一轮实用化关键。

Google DeepMind 提出 Decoupled DiLoCo 分布式训练架构,在高故障率模拟下实现 88% goodput。随着训练集群变得更大、更异构,系统容错本身正在成为模型竞争力的一部分。

Meta 向美国员工部署 MCI 追踪软件,记录键盘、鼠标和屏幕行为以训练办公 AI。争议点不只在隐私,更在于大厂已经把真实人类工作轨迹视为 Agent 训练燃料。

具身智能路线之争继续升温:一派强调硬件原生运动能力,一派强调 AI 原生模型和数据闭环。资本和产业都在重新判断,机器人竞争的决定性因素究竟是“身体”还是“脑子”。

Transformer 注意力汇聚现象综述系统梳理了 180 多篇研究,覆盖利用、理解与消除 Attention Sink 的三阶段工作。长上下文时代,这类底层机制研究会直接影响推理效率和稳定性。

Cubic 宣布其 AI 代码审查工具在 Martian 基准上拿到 61.8% F1。AI 编程工具的竞争已从“会不会写”进一步进入“会不会持续发现结构性问题”。

DeepSeek-V4、GPT-5.5 与 Claude回退:1M上下文和86%幻觉率,把大模型竞争拉回真实交付 | AI 趋势