1. NVIDIA 把预训练压到 4 位,真正变化不是“更小”,而是训练降本开始碰核心区
发生了什么
NVIDIA 公布了 NVFP4 预训练方案,在一个 12B 参数的混合 Mamba-Transformer 模型上,跑到了 10T token 训练规模,并给出与 FP8 相当的效果。
为什么重要
过去业界对低比特更多停留在推理压缩,训练端尤其是预训练,大家默认要靠更高精度兜底。NVIDIA 这次把 4 位浮点推进到长程预训练,意味着降本不再只是部署阶段的小修小补,而是开始改写最烧钱的那一段。如果这条路线能稳定复制到更大模型,训练集群的带宽、显存占用和总体吞吐都会跟着重算,未来模型能力竞争会越来越像“同样预算下谁能训更多 token”。
具体细节
这套方案不是简单粗暴地把 FP8 改成 4-bit。文章提到它用了 16 元素块缩放、E4M3 缩放因子、tensor 级 FP32 缩放,还引入选择性高精度、随机 Hadamard 变换、二维块缩放和梯度随机舍入四项稳定技术。换句话说,NVIDIA 在卖的不是一个数字格式,而是一整套“让 4 位训练不炸”的工程包。它也和另一条产业线形成呼应:AMD 一季度数据中心收入达到 57.75 亿美元,正借 AI 集群需求追赶;Cerebras 上市后市值约 670 亿美元,靠的也是把 AI 算力转成可独立定价的硬件能力。模型公司在找更低训练成本,芯片公司则在把这种焦虑货币化。