AI 每日精选 · 2026-05-01

Google云收入首破200亿美元、DeepSeek只用90个视觉Token:5月1日AI开始同时改写商业化与推理范式

今天的主线很清楚:AI不再只是“更强的模型”竞赛,而是同时进入两种更难的阶段——一边要在财报里兑现收入、用户和企业采用率,另一边要在推理机制上摆脱粗暴堆算力的老路。Google财报给出了最硬的一组商业化数据,DeepSeek则拿出一种更接近人类“边指边想”的视觉推理方法,而OpenAI Codex和微软365 Copilot的新动作说明,模型最终都要落到可接管真实任务的工作流上。

20亿
Google AI Overviews 月活
200亿美元+
Google 云业务单季收入
90
DeepSeek视觉推理所用视觉Token

深度解读

1. Google把AI真正写进了财报:搜索没被吃掉,云反而被AI重新拉升

发生了什么:Google财报解读,AI已经不只是成本项。搜索和广告收入同比增长19%,AI概览月活达到20亿;云业务单季收入首次突破200亿美元,同比增长63%,积压订单达到4600亿美元,Gemini企业付费月活环比增长40%,API调用频率超过16B tokens/min。

为什么重要:过去一年市场对Google最大的担心,是生成式AI会不会先伤害搜索这个现金牛。现在财报给出的答案恰好相反:AI没有先摧毁搜索,而是先提高了搜索的交互能力和商业转化效率;同时,模型能力又把云和企业服务一起带起来。更关键的是,这不是单点产品的胜利,而是Google第一次把“搜索入口、云算力、企业模型服务”串成一条闭环收入链。行业里很多公司都有模型,有些公司也有流量,但能同时把用户入口、开发者平台和企业付费客户接在一起的,仍然只有少数几家。

具体细节:这组数字里最值得细看的是三层传导。第一层是面向C端的AI Overviews,20亿月活意味着Google已经把生成式回答嵌进主搜索场景,而不是把AI单独放在实验室产品里。第二层是B端云收入首次跨过200亿美元关口,63%的同比增速说明训练、推理和企业应用部署正在同步释放需求。第三层是开发者与企业采用,Gemini企业付费月活环比增长40%,API吞吐达每分钟160亿token,说明AI开始像数据库、存储和计算一样,变成企业日常调用的底层能力。把这三层合在一起看,Google正在把AI从“模型能力”升级成“公司级操作系统”。

搜索广告
+19%
云业务
+63%
企业月活
+40%

2. DeepSeek把多模态推理从“说很多话”改成“先指再想”:90个视觉Token背后是方法论变化

多模态推理视觉基元效率提升

发生了什么:DeepSeek联合北大、清华提出视觉基元推理框架,相关报道见论文解读一解读二媒体报道。它不再让模型用大段语言描述图像中的关系,而是把边界框和坐标点当成最小思考单元,让模型先在图上“指”出对象,再进行计数、路径、空间和拓扑推理。据报道,这套方法在90个视觉token下就能达到接近GPT-5.4级别的效果。

为什么重要:多模态模型过去的一个根本问题,是它看似“看见了图”,实际上仍然主要靠语言在图像上做二次转述。这会导致指代混乱、空间关系错位,也就是论文里所说的“引用鸿沟”。DeepSeek这次真正有价值的地方,不只是分数更高,而是它给出了一条更像人类的推理路径:人类看复杂图片时,会一边指着某个物体、一边确认接下来思考的对象。把点和框显式引入推理链,相当于给模型加了一套视觉锚点系统。这个变化对GUI Agent、机器人、自动驾驶和工业检测都很关键,因为这些场景里最怕的不是模型不会聊天,而是它找错对象、走错路径、点错按钮。

具体细节:报道提到模型在计数、迷宫导航、路径追踪和复杂空间关系任务上表现突出,并通过压缩技术和五阶段后训练提高效率。最值得记住的是“90个视觉token”这个数量级:它意味着在很多需要结构感知的任务里,未来的竞争未必只是更大的上下文和更高的算力预算,而是谁能把感知表示设计得更贴近任务本身。这也和端侧AI与感算一体架构形成呼应——当AI从云端对话走向物理世界,模型必须学会更节省、更结构化地理解环境,而不是永远依赖海量token暴力推理。

传统多模态链路视觉基元链路差异
先把图像转成长文本描述先输出点、框等锚点减少指代漂移
依赖大量token解释位置关系用坐标直接表达空间关系压缩推理成本
更擅长泛化描述更适合计数、路径、拓扑任务更接近执行型场景

3. 从Codex到365 Copilot:模型正在争夺电脑桌面,而不是聊天框

Agent工作流办公入口生态争夺

发生了什么:OpenAI最新Codex升级显示,它已经从代码助手走向通用电脑操控Agent,可接管音频修复、封面设计、视频生成、邮件处理、数据分析和文档编辑等跨应用任务;与此同时,微软宣布把Anthropic模型引入Microsoft 365 Copilot,允许用户在Word等场景中直接选择不同模型进行润色和整理。

为什么重要:这两件事放在一起看,说明模型厂商争夺的重点已经不是单一模型跑分,而是“谁能成为电脑上的默认执行层”。OpenAI试图把Codex扩展成操作Mac和办公套件的总代理,微软则利用365已有的文档、权限、合规和企业关系,把多模型能力纳入自己的工作流框架。未来的护城河,很可能不是参数规模本身,而是谁离用户文件、日历、邮件、审批和桌面操作更近。

具体细节:Codex新增Slack和Google Workspace集成,意味着它开始接入团队协作和知识工作主干;微软则强调Anthropic模型仍运行在既有安全、合规和治理框架下,且管理员可开关,说明企业客户现在最在意的不是“多一个模型”,而是“多一个模型会不会破坏既有控制面”。如果再加上Gemini现已支持生成PDF、docx、xlsx、LaTeX等多种文件格式,我们看到的是同一件事:AI正在从回答器变成文件流、应用流和任务流之间的调度层。

快讯

Qwen-Scope 开源14组稀疏自编码器权重,试图把Qwen3/3.5内部特征变成可直接用于可解释性分析、毒性数据合成和训练干预的开发工具,开源模型的“可解释工程化”开始提速。
莫奈AI眼镜 在硅谷发布,标准版仅14.9克、Pro版19.9克,配备6麦克风和2K摄像头;轻量化和“主动无感AI”说明AI硬件正从炫技回到可日常佩戴的产品逻辑。
商汤SenseNova U1 Lite 试图解决AI生图中文字渲染和高密度信息排版难题,这类原生统一架构如果稳定,将直接影响海报、信息图和连续图文内容生产效率。
一项黑盒估算参数规模研究 认为GPT-5.5约9万亿参数、Claude Opus 4.7约4万亿参数,但方法本身已引发大量质疑;它至少说明行业对“闭源模型真实规模”仍高度好奇。
一篇强化学习综述 系统梳理了GRPO、RLOO、DAPO、CISPO、MaxRL等2024-2026年LLM推理强化学习方法,显示后训练优化正在从PPO单一路线转向多种去价值模型和归一化改进框架。
马斯克在OpenAI案中出庭作证,焦点仍是OpenAI由非营利走向营利结构的转变;这场诉讼虽然未直接改变产品能力,却持续影响OpenAI的治理叙事与行业信任。
Anthropic估值被报道升至9000亿美元,同时OpenAI面临用户流失和项目缩水压力;资本市场的重估正在强化“OpenAI不再一骑绝尘”的竞争认知。
一篇Agentic UI技术文章 展示了如何用AG-UI事件流和A2UI声明式层生成智能界面,说明“让模型自己搭界面”正在从概念进入可实现的工程实践。
数据库专家Mike Stonebraker 对AI写SQL的真实可用性泼了冷水,称真实场景准确率接近0%;这提醒企业级AI落地仍有大量结构化系统接口问题没被解决。
来源均来自 2026-05-01 指定上下文窗口;本期聚焦商业兑现、视觉推理方法和桌面Agent三条主线。
Google云收入首破200亿美元、DeepSeek只用90个视觉Token:5月1日AI开始同时改写商业化与推理范式 | AI 趋势