AI 每日精选 · 2026-05-01

Google云收入首破200亿美元、DeepSeek只用90个视觉Token：5月1日AI开始同时改写商业化与推理范式

今天的主线很清楚：AI不再只是“更强的模型”竞赛，而是同时进入两种更难的阶段——一边要在财报里兑现收入、用户和企业采用率，另一边要在推理机制上摆脱粗暴堆算力的老路。Google财报给出了最硬的一组商业化数据，DeepSeek则拿出一种更接近人类“边指边想”的视觉推理方法，而OpenAI Codex和微软365 Copilot的新动作说明，模型最终都要落到可接管真实任务的工作流上。

20亿

Google AI Overviews 月活

200亿美元+

Google 云业务单季收入

DeepSeek视觉推理所用视觉Token

深度解读

1. Google把AI真正写进了财报：搜索没被吃掉，云反而被AI重新拉升

商业化兑现财报信号搜索 + 云 + 企业

发生了什么：据 Google财报解读，AI已经不只是成本项。搜索和广告收入同比增长19%，AI概览月活达到20亿；云业务单季收入首次突破200亿美元，同比增长63%，积压订单达到4600亿美元，Gemini企业付费月活环比增长40%，API调用频率超过16B tokens/min。

为什么重要：过去一年市场对Google最大的担心，是生成式AI会不会先伤害搜索这个现金牛。现在财报给出的答案恰好相反：AI没有先摧毁搜索，而是先提高了搜索的交互能力和商业转化效率；同时，模型能力又把云和企业服务一起带起来。更关键的是，这不是单点产品的胜利，而是Google第一次把“搜索入口、云算力、企业模型服务”串成一条闭环收入链。行业里很多公司都有模型，有些公司也有流量，但能同时把用户入口、开发者平台和企业付费客户接在一起的，仍然只有少数几家。

具体细节：这组数字里最值得细看的是三层传导。第一层是面向C端的AI Overviews，20亿月活意味着Google已经把生成式回答嵌进主搜索场景，而不是把AI单独放在实验室产品里。第二层是B端云收入首次跨过200亿美元关口，63%的同比增速说明训练、推理和企业应用部署正在同步释放需求。第三层是开发者与企业采用，Gemini企业付费月活环比增长40%，API吞吐达每分钟160亿token，说明AI开始像数据库、存储和计算一样，变成企业日常调用的底层能力。把这三层合在一起看，Google正在把AI从“模型能力”升级成“公司级操作系统”。

搜索广告

+19%

云业务

+63%

企业月活

+40%

2. DeepSeek把多模态推理从“说很多话”改成“先指再想”：90个视觉Token背后是方法论变化

多模态推理视觉基元效率提升

发生了什么：DeepSeek联合北大、清华提出视觉基元推理框架，相关报道见论文解读一、解读二与媒体报道。它不再让模型用大段语言描述图像中的关系，而是把边界框和坐标点当成最小思考单元，让模型先在图上“指”出对象，再进行计数、路径、空间和拓扑推理。据报道，这套方法在90个视觉token下就能达到接近GPT-5.4级别的效果。

为什么重要：多模态模型过去的一个根本问题，是它看似“看见了图”，实际上仍然主要靠语言在图像上做二次转述。这会导致指代混乱、空间关系错位，也就是论文里所说的“引用鸿沟”。DeepSeek这次真正有价值的地方，不只是分数更高，而是它给出了一条更像人类的推理路径：人类看复杂图片时，会一边指着某个物体、一边确认接下来思考的对象。把点和框显式引入推理链，相当于给模型加了一套视觉锚点系统。这个变化对GUI Agent、机器人、自动驾驶和工业检测都很关键，因为这些场景里最怕的不是模型不会聊天，而是它找错对象、走错路径、点错按钮。

具体细节：报道提到模型在计数、迷宫导航、路径追踪和复杂空间关系任务上表现突出，并通过压缩技术和五阶段后训练提高效率。最值得记住的是“90个视觉token”这个数量级：它意味着在很多需要结构感知的任务里，未来的竞争未必只是更大的上下文和更高的算力预算，而是谁能把感知表示设计得更贴近任务本身。这也和端侧AI与感算一体架构形成呼应——当AI从云端对话走向物理世界，模型必须学会更节省、更结构化地理解环境，而不是永远依赖海量token暴力推理。

传统多模态链路	视觉基元链路	差异
先把图像转成长文本描述	先输出点、框等锚点	减少指代漂移
依赖大量token解释位置关系	用坐标直接表达空间关系	压缩推理成本
更擅长泛化描述	更适合计数、路径、拓扑任务	更接近执行型场景

3. 从Codex到365 Copilot：模型正在争夺电脑桌面，而不是聊天框

Agent工作流办公入口生态争夺

发生了什么：OpenAI最新Codex升级显示，它已经从代码助手走向通用电脑操控Agent，可接管音频修复、封面设计、视频生成、邮件处理、数据分析和文档编辑等跨应用任务；与此同时，微软宣布把Anthropic模型引入Microsoft 365 Copilot，允许用户在Word等场景中直接选择不同模型进行润色和整理。

为什么重要：这两件事放在一起看，说明模型厂商争夺的重点已经不是单一模型跑分，而是“谁能成为电脑上的默认执行层”。OpenAI试图把Codex扩展成操作Mac和办公套件的总代理，微软则利用365已有的文档、权限、合规和企业关系，把多模型能力纳入自己的工作流框架。未来的护城河，很可能不是参数规模本身，而是谁离用户文件、日历、邮件、审批和桌面操作更近。

具体细节：Codex新增Slack和Google Workspace集成，意味着它开始接入团队协作和知识工作主干；微软则强调Anthropic模型仍运行在既有安全、合规和治理框架下，且管理员可开关，说明企业客户现在最在意的不是“多一个模型”，而是“多一个模型会不会破坏既有控制面”。如果再加上Gemini现已支持生成PDF、docx、xlsx、LaTeX等多种文件格式，我们看到的是同一件事：AI正在从回答器变成文件流、应用流和任务流之间的调度层。

快讯

Qwen-Scope 开源14组稀疏自编码器权重，试图把Qwen3/3.5内部特征变成可直接用于可解释性分析、毒性数据合成和训练干预的开发工具，开源模型的“可解释工程化”开始提速。

莫奈AI眼镜在硅谷发布，标准版仅14.9克、Pro版19.9克，配备6麦克风和2K摄像头；轻量化和“主动无感AI”说明AI硬件正从炫技回到可日常佩戴的产品逻辑。

商汤SenseNova U1 Lite 试图解决AI生图中文字渲染和高密度信息排版难题，这类原生统一架构如果稳定，将直接影响海报、信息图和连续图文内容生产效率。

一项黑盒估算参数规模研究认为GPT-5.5约9万亿参数、Claude Opus 4.7约4万亿参数，但方法本身已引发大量质疑；它至少说明行业对“闭源模型真实规模”仍高度好奇。

一篇强化学习综述系统梳理了GRPO、RLOO、DAPO、CISPO、MaxRL等2024-2026年LLM推理强化学习方法，显示后训练优化正在从PPO单一路线转向多种去价值模型和归一化改进框架。

马斯克在OpenAI案中出庭作证，焦点仍是OpenAI由非营利走向营利结构的转变；这场诉讼虽然未直接改变产品能力，却持续影响OpenAI的治理叙事与行业信任。

Anthropic估值被报道升至9000亿美元，同时OpenAI面临用户流失和项目缩水压力；资本市场的重估正在强化“OpenAI不再一骑绝尘”的竞争认知。

一篇Agentic UI技术文章展示了如何用AG-UI事件流和A2UI声明式层生成智能界面，说明“让模型自己搭界面”正在从概念进入可实现的工程实践。

数据库专家Mike Stonebraker 对AI写SQL的真实可用性泼了冷水，称真实场景准确率接近0%；这提醒企业级AI落地仍有大量结构化系统接口问题没被解决。

来源均来自 2026-05-01 指定上下文窗口；本期聚焦商业兑现、视觉推理方法和桌面Agent三条主线。