1. DeepSeek-V4把开源竞争从“能不能追上”改成“能不能长期压价”

发生了什么:MIT Technology ReviewSimon Willison以及多篇中文报道都指向同一个事实:DeepSeek 发布了 V4 预览版,主力的 Pro 版本达到 1.6T 参数、支持 1M 上下文,同时继续采用极具攻击性的价格策略,还新增对中国芯片和底层 kernel 栈的协同优化。

为什么重要:如果说过去开源模型的故事还是“性能越来越接近闭源”,那 V4 更关键的一步是把竞争焦点转到了效率结构。它不只是把模型做大,而是同时在混合注意力、超长上下文、MoE 路由、GPU kernels 和专家并行上一起动手,目标很明确:让高性能模型不再只属于算力最贵的那一批公司。对行业来说,这意味着闭源公司的护城河不能只靠“能力稍强一点”,还要解释为什么它值得高出许多倍的价格。

上下文窗口
1M tokens
Flash 轻量化
284B 参数
训练/推理栈
Kernel+EP V2

具体细节:除了模型本身,DeepSeek 新开源的 Tile Kernels 与 DeepEP V2很值得注意。前者覆盖门控、MoE 路由、量化和转置等核心操作,后者则重构专家并行,继续压低长上下文和大规模 MoE 的成本。再叠加昇腾超节点的适配,V4 的意义已经不只是“又一个强模型”,而是模型、编译、芯片和并行系统在同一时间点上开始成套推进。对中国 AI 产业链来说,这种协同比单个 benchmark 更重要,因为它决定了后续谁能真正把模型大规模跑起来。

1. DeepSeek-V4把开源竞争从“能不能追上”改成“能不能长期压价” | AI 趋势