1. NVIDIA 把预训练压到 4 位，真正变化不是“更小”，而是训练降本开始碰核心区

2026年5月18日 · 635 字 · AI 趋势日报深度解读

发生了什么
NVIDIA 公布了 NVFP4 预训练方案，在一个 12B 参数的混合 Mamba-Transformer 模型上，跑到了 10T token 训练规模，并给出与 FP8 相当的效果。

为什么重要
过去业界对低比特更多停留在推理压缩，训练端尤其是预训练，大家默认要靠更高精度兜底。NVIDIA 这次把 4 位浮点推进到长程预训练，意味着降本不再只是部署阶段的小修小补，而是开始改写最烧钱的那一段。如果这条路线能稳定复制到更大模型，训练集群的带宽、显存占用和总体吞吐都会跟着重算，未来模型能力竞争会越来越像“同样预算下谁能训更多 token”。

具体细节
这套方案不是简单粗暴地把 FP8 改成 4-bit。文章提到它用了 16 元素块缩放、E4M3 缩放因子、tensor 级 FP32 缩放，还引入选择性高精度、随机 Hadamard 变换、二维块缩放和梯度随机舍入四项稳定技术。换句话说，NVIDIA 在卖的不是一个数字格式，而是一整套“让 4 位训练不炸”的工程包。它也和另一条产业线形成呼应：AMD 一季度数据中心收入达到 57.75 亿美元，正借 AI 集群需求追赶；Cerebras 上市后市值约 670 亿美元，靠的也是把 AI 算力转成可独立定价的硬件能力。模型公司在找更低训练成本，芯片公司则在把这种焦虑货币化。

精度路径

FP8基线

NVFP4

降本潜力

可视化含义：行业基线仍是 FP8，但 NVFP4 已把“更低精度进入预训练”从概念推进到可验证区间。