AI 每日精选 · 2026-05-18

NVFP4预训练、130万美元Agent账单与89%收入垄断：5月18日AI开始算真实成本

今天几条最重的新闻，表面上分属训练、应用、资本和芯片，底层其实是同一件事：AI行业开始从“能力证明”切到“成本核算”。谁能把训练更便宜、推理更稳定、收入更集中、硬件更赚钱讲清楚，谁就更接近下一轮主导权。

4-bit

NVIDIA 用 NVFP4 把预训练压到 4 位浮点

$130万

3 人团队 30 天 API 账单，Agent 开发成本被公开

89%

OpenAI 与 Anthropic 吃下头部 GenAI 初创收入

深度解读

1. NVIDIA 把预训练压到 4 位，真正变化不是“更小”，而是训练降本开始碰核心区

发生了什么
NVIDIA 公布了 NVFP4 预训练方案，在一个 12B 参数的混合 Mamba-Transformer 模型上，跑到了 10T token 训练规模，并给出与 FP8 相当的效果。

为什么重要
过去业界对低比特更多停留在推理压缩，训练端尤其是预训练，大家默认要靠更高精度兜底。NVIDIA 这次把 4 位浮点推进到长程预训练，意味着降本不再只是部署阶段的小修小补，而是开始改写最烧钱的那一段。如果这条路线能稳定复制到更大模型，训练集群的带宽、显存占用和总体吞吐都会跟着重算，未来模型能力竞争会越来越像“同样预算下谁能训更多 token”。

具体细节
这套方案不是简单粗暴地把 FP8 改成 4-bit。文章提到它用了 16 元素块缩放、E4M3 缩放因子、tensor 级 FP32 缩放，还引入选择性高精度、随机 Hadamard 变换、二维块缩放和梯度随机舍入四项稳定技术。换句话说，NVIDIA 在卖的不是一个数字格式，而是一整套“让 4 位训练不炸”的工程包。它也和另一条产业线形成呼应：AMD 一季度数据中心收入达到 57.75 亿美元，正借 AI 集群需求追赶；Cerebras 上市后市值约 670 亿美元，靠的也是把 AI 算力转成可独立定价的硬件能力。模型公司在找更低训练成本，芯片公司则在把这种焦虑货币化。

精度路径

FP8基线

NVFP4

降本潜力

可视化含义：行业基线仍是 FP8，但 NVFP4 已把“更低精度进入预训练”从概念推进到可验证区间。

2. 3 人团队 30 天烧掉 130 万美元，Agent 创业的账终于开始公开

发生了什么
Peter Steinberger 晒出 CodexBar 截图，显示其团队 30 天调用 OpenAI API 花了 130 万美元，消耗 6030 亿 token，最常用模型是 GPT-5.5。团队只有 3 个人，却调度了 100 个 Codex 小 Agent 协作开发 OpenClaw。

为什么重要
行业这两年总在说 Agent 能把少量人力放大成高产团队，但很少有人把代价也摊开说。130 万美元这个数字第一次把“AI 工程组织的杠杆”与“API 成本的上限”放在同一张桌上：你确实可以用 3 个人指挥 100 个 Agent 并行开发，但这未必天然比雇更多工程师便宜。文章里提到，关闭快速模式后成本下降 70%，月费仍有 40 万美元，这已经不是个人开发者能承受的实验，而是企业级预算问题。它直接对应到另一篇生成式 AI 初创收入高度集中的报道：头部 34 家公司年化收入逼近 8000 亿美元，OpenAI 与 Anthropic 两家占了 89%。收入集中，某种意义上就是成本集中——越多人做 Agent，越容易把流水汇入少数模型平台。

指标	数字	含义
团队人数	3 人	极小团队也能跑出大规模 Agent 工程
Agent 数量	100 个	软件生产方式正在平台化、流水线化
30 天成本	130 万美元	效率提升并不自动等于成本下降
降本后月费	40 万美元	即使优化后，仍接近高端研发团队成本

具体细节
这条新闻还和 MCP 生产实践形成互证。Agent 真进生产环境之后，问题不只是 token 花了多少，还包括接口该怎么设计、授权如何细粒度控制、延迟与日志怎么兜底。换句话说，Agent 成本不止是模型账单，还包括一整层基础设施税。今天把账单亮出来的人，等于提前把行业的隐藏成本结构掀开了一角。

3. 从 89% 收入垄断到 AMD、Cerebras 起飞，AI 产业链正在重新分配利润

发生了什么
一边是应用层集中度继续上升：OpenAI 和 Anthropic 占据头部 GenAI 初创公司 89% 收入；另一边是基础设施层疯狂吃红利：AMD 数据中心季度收入 57.75 亿美元，季度收入显著压过英特尔；Cerebras 纳斯达克上市后总市值约 670 亿美元，且与 OpenAI 签下超 200 亿美元算力合同。

为什么重要
这说明 AI 产业并没有像很多人期待的那样快速走向百花齐放，而是同时出现两种集中：模型平台集中收入，芯片平台集中利润。中间层创业公司虽然数量很多，但既要向上采购模型能力，又要向下支付算力与部署成本，留给自己的利润空间反而最薄。这也是为什么今天会同时出现“130 万美元 API 账单”和“头部公司吃下绝大多数收入”两类新闻——它们其实是同一枚硬币的两面。

OpenAI+Anthropic

89%

其余 32 家

11%

收入分布已经不是“领先一点”，而是平台级碾压。这会逼着更多公司去做差异化数据、行业场景，或直接倒向算力和工具层。

具体细节
今天的并购与生态消息，也都能塞进这张图里。微软和 SpaceX 争抢 Inception，看中的是其扩散式文本生成比自回归模型快 10 倍的潜力；千问与淘宝打通后，商家开始研究 GEO、信源权重和“争夺 AI 推荐位”，说明平台入口一旦被大模型接管，流量分配权也会随之重构。钱正在朝两端走：一端是掌握模型与分发入口的平台，另一端是卖铲子的硬件与基础设施公司。

快讯

Anthropic 向多国财政部和央行通报 Claude Mythos 发现的金融网络漏洞，说明高能力模型已开始直接卷入国家级安全预警体系；问题在于少数机构先拿到信息，可能带来新的防护不均衡。
华为开源 JiuwenSwarm 多智能体协作平台，给出了 Agent Swarm、Skills Hub 和自演进引擎的完整框架，在 PinchBench 上报出 94.2% 成绩，明显是在抢企业多 Agent 基建话语权。
华为提出 EDCO 动态课程编排方法，核心是按推理熵调整训练样本难度，让领域模型持续学“刚好够难”的数据，属于很实用的训练提效路线。
中国 AI 视频生成公司被指在产品层面领先美国，优势来自海量短视频数据和更宽松的生成边界；这意味着视频赛道的护城河更可能是数据与产品调优，不只是底模参数。
Linus Torvalds 警告 Linux 社区被 AI 漏洞报告淹没，问题不是工具本身，而是大量未经验证的重复提交正在消耗维护者精力，AI 辅助安全开始出现明显负外部性。
Figure AI 的 10 小时人机分拣赛中，人类以 12926 个包裹险胜机器人；机器人虽败但已接近实用门槛，商业化叙事开始从“能不能做”转向“什么时候比人更省”。
ChatGPT 修图能力测试显示普通用户已经能直接完成光影优化、背景替换和姿势调整，消费级创作工具继续蚕食轻量专业服务。
FF 宣布完成 2500 万美元融资并重提“AI First”，还把重点押向人形和仿生机器人，但现阶段更像资本叙事重组，离验证仍远。
MCP 工程实践文章提醒，真正上线后的 Agent 接口应追求单次高意图调用、细粒度 OAuth 2.0 授权和精简响应，别把实验室协议直接搬进生产。
《我不凭感觉编程》代表了开发者对 LLM 编程热潮的另一面反弹：成本、责任和对复杂性的真实理解，仍是人类工程师的核心价值。