谷歌TurboQuant压缩KV Cache 6倍引存储股暴跌5%，同日Search Live覆盖200国、Gemini 3.1 Flash Live上线

深度解读

算法 · 存储

谷歌TurboQuant：6倍KV Cache压缩让SK海力士单日跌5%，但市场读对了吗？

谷歌Research周四发布TurboQuant，解决的是LLM推理时真正的性能瓶颈：KV Cache。这块显存里存放的是每个token的注意力键值对，在长上下文推理中可以吃掉数十GB显存。TurboQuant用两步数学解决它：PolarQuant处理键（key），QJL处理值（value），最终把精度压到3.5 bit时零损失，2.5 bit时仅有极微小质量下降——内存缩小至少6倍，H100上attention计算最快快8倍。最关键的是：免训练、免微调、免校准，纯软件，下载就能跑。

TurboQuant 压缩效果

原始 FP16

100%

基准

3.5 bit

≈16%

零损失

2.5 bit

≈11%

极微小下降

H100加速

attention最高快8×

消息传出后，投资者读出了"存储芯片需求要被压缩"的信号，三大存储龙头集体单日跌超5%：

SKH

−5%+

SK海力士

005930

−5%+

三星电子

−5%+

美光科技

但这个反应大概率是过度解读。分析指出，TurboQuant压缩的是推理时GPU显存里的KV Cache——这是AI内存需求里的一个切片，不是训练权重，也不是数据集存储。而AI内存需求的核心矛盾在于模型权重和训练期间的激活值，这些TurboQuant根本没碰到。摩根士丹利的判断更乐观：推理效率提升意味着更大规模部署，长期反而利好整个AI存储市场。

值得关注的是技术本身：量化技术正在走向精细化——不再是粗暴降低全局精度，而是针对不同层、不同位置采用差异化策略。TurboQuant能在如此低精度下保持质量，说明KV Cache本身存在大量冗余，这对理解Transformer的信息存储方式本身也有意义。

产品 · 平台

同一天：Gemini 3.1 Flash Live上线 + Search Live覆盖200国 + Live Translate登陆iOS——谷歌在下一盘大棋

三件事同一天发生不是巧合。谷歌周四的动作展示了一套完整的产品矩阵落地逻辑：Gemini模型→开发者基础设施→消费者产品，三层同步推进。

Gemini 3.1 Flash Live

WebSocket双向流式 · 原生音视频 · Agent工具调用优化 · 低延迟对话

Search Live 全球化

200+国家上线 · 摄像头+语音 · 实时视觉问答 · Gemini 3.1驱动

Live Translate iOS

70+语言 · 无需专属硬件 · 任何有麦耳机可用 · 扩展至德法等10+国

Gemini 3.1 Flash Live是今天最有技术含量的发布。它解决的是传统语音AI的架构性问题：以往的ASR→LLM→TTS三级管道每级都有延迟，且中间会丢失语音的情感和语调。Flash Live用单一模型原生处理音频和视频，通过WebSocket实现双向流式——用户说话的同时，模型已经在推理。在复杂功能调用和噪声环境下的表现被官方特别标注，暗示它主要是面向Agent应用的基础设施，而非普通语音助手。

Search Live全球化的意义在于规模：200+国家意味着它已经从实验功能变成Google Search的正式入口之一。用户可以把手机摄像头对准任何物体然后和AI对话——官方举例是指导安装搁板。这和苹果的Vision Pro、Meta的Ray-Ban眼镜走的是同一条"让AI看到现实"的路，但谷歌选择了手机+搜索这条门槛更低的路径。

而Live Translate登陆iOS是其中最务实的一步：70+语言，任何有麦克风的有线或无线耳机即可，不需要Pixel手机，不需要专属硬件。这直接让Live Translate从"安卓专属功能"变成了可以在全球大多数手机用户面前展示的能力。三件事叠加，指向同一个战略意图：在OpenAI准备IPO、Anthropic加速商业化的节点，谷歌正在用Gemini作为引擎，快速填满从开发者到消费者的所有产品入口。

值得一提的副线：Gemini还上线了记忆导入功能，允许用户把其他AI助手的对话历史（最大5GB）批量迁移进来。这个功能的目标很明确：降低从ChatGPT或Claude切换过来的摩擦成本。

快讯

Arm AGI CPU：CEO预测2031年年收入达150亿美元，Meta首批客户

Arm发布首款自研数据中心CPU，CEO Rene Haas称此举旨在扩大Arm架构生态，不会与英伟达正面冲突，Meta已确认成为首批用户。原文

Cohere开源ASR模型Transcribe：2B参数、5.42% WER，HuggingFace语音榜第一

混合Conformer架构（CNN+Transformer），支持14种语言，消费级GPU即可运行，超越Whisper Large v3，计划集成到企业平台North，API免费提供。原文

Granola完成1.25亿美元C轮，估值15亿，从会议笔记转型AI工作平台

推出Spaces功能，引入个人API和企业API，与Claude、ChatGPT连接，让笔记和转录内容成为AI工作流的输入端。原文

法律AI Harvey估值达110亿美元，18个月内完成四轮融资，GIC+红杉领投

从30亿到110亿，累计融资超10亿美元，是近期企业级AI赛道估值增速最快的公司之一。原文

苹果计划iOS 27开放Siri接口，允许ChatGPT等外部AI直接接入

苹果在AI布局上持续收缩自研、开放平台，核心是用iPhone的硬件分发能力换取AI能力补全，同时从佣金中获益。原文

GitHub Copilot 4月24日起默认用个人用户交互数据训练AI，商业账户不受影响

收集范围包括光标周围代码、对话记录、界面导航路径，用户需主动关闭才能退出。Free/Pro/Pro+个人账户均受影响。原文

欧盟AI法案高风险合规期限推迟至2027年12月，新增对"脱衣"应用的禁令

玩具、医疗器械相关AI延至2028年8月，数字水印义务顺延至2026年11月，回应深度伪造色情内容激增问题。原文

Sakana AI的AI Scientist通过ICLR盲审并发表Nature论文

系统自动完成从选题到论文写作的全流程，盲审通过是AI科研工具里程碑式的节点。原文

字节跳动Dreamina Seedance 2.0上线并集成至CapCut，首批开放七国市场

支持文本/图像/视频生成15秒视频，提供多视角渲染和版权保护，适用于创意验证和短内容生产场景。原文

Anthropic确认Claude Code工作日高峰期7%用户配额消耗更快

用户从3月23日起集中反映5小时配额消耗过快，Anthropic最终正式承认配置调整，是高峰期服务质量管理的公开案例。原文

快手2025年可灵AI年化收入运行率超3亿美元，2026年Capex投入260亿人民币

总收入1428亿同比增12.5%，AI主站融合（降本提效+增量增长）双线驱动，是国内视频平台AI变现最具体的财务数据之一。原文

AI流量2025年已超过人类用户流量，ChatGPT等大模型是主要推手

HUMAN Security报告显示自动化流量增速远超人类活动，自动化流量包含非恶意功能，行业需建立新的信任分级机制。原文

马斯克宣布xAI将升级视频生成器Grok Imagine，填补Sora关停留下的市场空白

马斯克在X发文"下一版Grok Imagine的发布将会非常震撼，我们正在加倍投入"，并分享了系列AI生成视频。原文

阿里前P10林俊旸离职后发文：AI核心从推理转向智能体式思考，环境设计是关键

回顾Qwen3融合思考与指令模式的尝试，指出未来竞争在于能与环境闭环交互的Agent系统，工程重心应转向环境设计和反作弊基础设施。原文