Google云收入首破200亿美元、DeepSeek只用90个视觉Token:5月1日AI开始同时改写商业化与推理范式
今天的主线很清楚:AI不再只是“更强的模型”竞赛,而是同时进入两种更难的阶段——一边要在财报里兑现收入、用户和企业采用率,另一边要在推理机制上摆脱粗暴堆算力的老路。Google财报给出了最硬的一组商业化数据,DeepSeek则拿出一种更接近人类“边指边想”的视觉推理方法,而OpenAI Codex和微软365 Copilot的新动作说明,模型最终都要落到可接管真实任务的工作流上。
深度解读
1. Google把AI真正写进了财报:搜索没被吃掉,云反而被AI重新拉升
发生了什么:据Google财报解读,AI已经不只是成本项。搜索和广告收入同比增长19%,AI概览月活达到20亿;云业务单季收入首次突破200亿美元,同比增长63%,积压订单达到4600亿美元,Gemini企业付费月活环比增长40%,API调用频率超过16B tokens/min。
为什么重要:过去一年市场对Google最大的担心,是生成式AI会不会先伤害搜索这个现金牛。现在财报给出的答案恰好相反:AI没有先摧毁搜索,而是先提高了搜索的交互能力和商业转化效率;同时,模型能力又把云和企业服务一起带起来。更关键的是,这不是单点产品的胜利,而是Google第一次把“搜索入口、云算力、企业模型服务”串成一条闭环收入链。行业里很多公司都有模型,有些公司也有流量,但能同时把用户入口、开发者平台和企业付费客户接在一起的,仍然只有少数几家。
具体细节:这组数字里最值得细看的是三层传导。第一层是面向C端的AI Overviews,20亿月活意味着Google已经把生成式回答嵌进主搜索场景,而不是把AI单独放在实验室产品里。第二层是B端云收入首次跨过200亿美元关口,63%的同比增速说明训练、推理和企业应用部署正在同步释放需求。第三层是开发者与企业采用,Gemini企业付费月活环比增长40%,API吞吐达每分钟160亿token,说明AI开始像数据库、存储和计算一样,变成企业日常调用的底层能力。把这三层合在一起看,Google正在把AI从“模型能力”升级成“公司级操作系统”。
2. DeepSeek把多模态推理从“说很多话”改成“先指再想”:90个视觉Token背后是方法论变化
发生了什么:DeepSeek联合北大、清华提出视觉基元推理框架,相关报道见论文解读一、解读二与媒体报道。它不再让模型用大段语言描述图像中的关系,而是把边界框和坐标点当成最小思考单元,让模型先在图上“指”出对象,再进行计数、路径、空间和拓扑推理。据报道,这套方法在90个视觉token下就能达到接近GPT-5.4级别的效果。
为什么重要:多模态模型过去的一个根本问题,是它看似“看见了图”,实际上仍然主要靠语言在图像上做二次转述。这会导致指代混乱、空间关系错位,也就是论文里所说的“引用鸿沟”。DeepSeek这次真正有价值的地方,不只是分数更高,而是它给出了一条更像人类的推理路径:人类看复杂图片时,会一边指着某个物体、一边确认接下来思考的对象。把点和框显式引入推理链,相当于给模型加了一套视觉锚点系统。这个变化对GUI Agent、机器人、自动驾驶和工业检测都很关键,因为这些场景里最怕的不是模型不会聊天,而是它找错对象、走错路径、点错按钮。
具体细节:报道提到模型在计数、迷宫导航、路径追踪和复杂空间关系任务上表现突出,并通过压缩技术和五阶段后训练提高效率。最值得记住的是“90个视觉token”这个数量级:它意味着在很多需要结构感知的任务里,未来的竞争未必只是更大的上下文和更高的算力预算,而是谁能把感知表示设计得更贴近任务本身。这也和端侧AI与感算一体架构形成呼应——当AI从云端对话走向物理世界,模型必须学会更节省、更结构化地理解环境,而不是永远依赖海量token暴力推理。
| 传统多模态链路 | 视觉基元链路 | 差异 |
|---|---|---|
| 先把图像转成长文本描述 | 先输出点、框等锚点 | 减少指代漂移 |
| 依赖大量token解释位置关系 | 用坐标直接表达空间关系 | 压缩推理成本 |
| 更擅长泛化描述 | 更适合计数、路径、拓扑任务 | 更接近执行型场景 |
3. 从Codex到365 Copilot:模型正在争夺电脑桌面,而不是聊天框
发生了什么:OpenAI最新Codex升级显示,它已经从代码助手走向通用电脑操控Agent,可接管音频修复、封面设计、视频生成、邮件处理、数据分析和文档编辑等跨应用任务;与此同时,微软宣布把Anthropic模型引入Microsoft 365 Copilot,允许用户在Word等场景中直接选择不同模型进行润色和整理。
为什么重要:这两件事放在一起看,说明模型厂商争夺的重点已经不是单一模型跑分,而是“谁能成为电脑上的默认执行层”。OpenAI试图把Codex扩展成操作Mac和办公套件的总代理,微软则利用365已有的文档、权限、合规和企业关系,把多模型能力纳入自己的工作流框架。未来的护城河,很可能不是参数规模本身,而是谁离用户文件、日历、邮件、审批和桌面操作更近。
具体细节:Codex新增Slack和Google Workspace集成,意味着它开始接入团队协作和知识工作主干;微软则强调Anthropic模型仍运行在既有安全、合规和治理框架下,且管理员可开关,说明企业客户现在最在意的不是“多一个模型”,而是“多一个模型会不会破坏既有控制面”。如果再加上Gemini现已支持生成PDF、docx、xlsx、LaTeX等多种文件格式,我们看到的是同一件事:AI正在从回答器变成文件流、应用流和任务流之间的调度层。