AI 每日精选 · 2026-05-18

NVFP4预训练、130万美元Agent账单与89%收入垄断:5月18日AI开始算真实成本

今天几条最重的新闻,表面上分属训练、应用、资本和芯片,底层其实是同一件事:AI行业开始从“能力证明”切到“成本核算”。谁能把训练更便宜、推理更稳定、收入更集中、硬件更赚钱讲清楚,谁就更接近下一轮主导权。
4-bit
NVIDIA 用 NVFP4 把预训练压到 4 位浮点
$130万
3 人团队 30 天 API 账单,Agent 开发成本被公开
89%
OpenAI 与 Anthropic 吃下头部 GenAI 初创收入

深度解读

1. NVIDIA 把预训练压到 4 位,真正变化不是“更小”,而是训练降本开始碰核心区

发生了什么
NVIDIA 公布了
NVFP4 预训练方案,在一个 12B 参数的混合 Mamba-Transformer 模型上,跑到了 10T token 训练规模,并给出与 FP8 相当的效果。

为什么重要
过去业界对低比特更多停留在推理压缩,训练端尤其是预训练,大家默认要靠更高精度兜底。NVIDIA 这次把 4 位浮点推进到长程预训练,意味着降本不再只是部署阶段的小修小补,而是开始改写最烧钱的那一段。如果这条路线能稳定复制到更大模型,训练集群的带宽、显存占用和总体吞吐都会跟着重算,未来模型能力竞争会越来越像“同样预算下谁能训更多 token”。

具体细节
这套方案不是简单粗暴地把 FP8 改成 4-bit。文章提到它用了 16 元素块缩放、E4M3 缩放因子、tensor 级 FP32 缩放,还引入选择性高精度、随机 Hadamard 变换、二维块缩放和梯度随机舍入四项稳定技术。换句话说,NVIDIA 在卖的不是一个数字格式,而是一整套“让 4 位训练不炸”的工程包。它也和另一条产业线形成呼应:AMD 一季度数据中心收入达到 57.75 亿美元,正借 AI 集群需求追赶;Cerebras 上市后市值约 670 亿美元,靠的也是把 AI 算力转成可独立定价的硬件能力。模型公司在找更低训练成本,芯片公司则在把这种焦虑货币化。

精度路径
FP8基线
NVFP4
降本潜力
可视化含义:行业基线仍是 FP8,但 NVFP4 已把“更低精度进入预训练”从概念推进到可验证区间。

2. 3 人团队 30 天烧掉 130 万美元,Agent 创业的账终于开始公开

发生了什么
Peter Steinberger 晒出 CodexBar 截图,显示其团队 30 天调用 OpenAI API 花了 130 万美元,消耗 6030 亿 token,最常用模型是 GPT-5.5。团队只有 3 个人,却调度了 100 个 Codex 小 Agent 协作开发 OpenClaw。

为什么重要
行业这两年总在说 Agent 能把少量人力放大成高产团队,但很少有人把代价也摊开说。130 万美元这个数字第一次把“AI 工程组织的杠杆”与“API 成本的上限”放在同一张桌上:你确实可以用 3 个人指挥 100 个 Agent 并行开发,但这未必天然比雇更多工程师便宜。文章里提到,关闭快速模式后成本下降 70%,月费仍有 40 万美元,这已经不是个人开发者能承受的实验,而是企业级预算问题。它直接对应到另一篇 生成式 AI 初创收入高度集中 的报道:头部 34 家公司年化收入逼近 8000 亿美元,OpenAI 与 Anthropic 两家占了 89%。收入集中,某种意义上就是成本集中——越多人做 Agent,越容易把流水汇入少数模型平台。

指标数字含义
团队人数3 人极小团队也能跑出大规模 Agent 工程
Agent 数量100 个软件生产方式正在平台化、流水线化
30 天成本130 万美元效率提升并不自动等于成本下降
降本后月费40 万美元即使优化后,仍接近高端研发团队成本

具体细节
这条新闻还和 MCP 生产实践 形成互证。Agent 真进生产环境之后,问题不只是 token 花了多少,还包括接口该怎么设计、授权如何细粒度控制、延迟与日志怎么兜底。换句话说,Agent 成本不止是模型账单,还包括一整层基础设施税。今天把账单亮出来的人,等于提前把行业的隐藏成本结构掀开了一角。

3. 从 89% 收入垄断到 AMD、Cerebras 起飞,AI 产业链正在重新分配利润

发生了什么
一边是应用层集中度继续上升:OpenAI 和 Anthropic 占据头部 GenAI 初创公司 89% 收入;另一边是基础设施层疯狂吃红利:AMD 数据中心季度收入 57.75 亿美元,季度收入显著压过英特尔;Cerebras 纳斯达克上市 后总市值约 670 亿美元,且与 OpenAI 签下超 200 亿美元算力合同。

为什么重要
这说明 AI 产业并没有像很多人期待的那样快速走向百花齐放,而是同时出现两种集中:模型平台集中收入,芯片平台集中利润。中间层创业公司虽然数量很多,但既要向上采购模型能力,又要向下支付算力与部署成本,留给自己的利润空间反而最薄。这也是为什么今天会同时出现“130 万美元 API 账单”和“头部公司吃下绝大多数收入”两类新闻——它们其实是同一枚硬币的两面。

OpenAI+Anthropic
89%
其余 32 家
11%
收入分布已经不是“领先一点”,而是平台级碾压。这会逼着更多公司去做差异化数据、行业场景,或直接倒向算力和工具层。

具体细节
今天的并购与生态消息,也都能塞进这张图里。微软和 SpaceX 争抢 Inception,看中的是其扩散式文本生成比自回归模型快 10 倍的潜力;千问与淘宝打通 后,商家开始研究 GEO、信源权重和“争夺 AI 推荐位”,说明平台入口一旦被大模型接管,流量分配权也会随之重构。钱正在朝两端走:一端是掌握模型与分发入口的平台,另一端是卖铲子的硬件与基础设施公司。

快讯

NVFP4预训练、130万美元Agent账单与89%收入垄断:5月18日AI开始算真实成本 | AI 趋势