BaogaoAI · AI每日精选

谷歌TurboQuant压缩KV Cache 6倍引存储股暴跌5%,同日Search Live覆盖200国、Gemini 3.1 Flash Live上线

2026年3月27日  ·  68篇文章精选
算法 · 存储

谷歌TurboQuant:6倍KV Cache压缩让SK海力士单日跌5%,但市场读对了吗?

谷歌Research周四发布TurboQuant,解决的是LLM推理时真正的性能瓶颈:KV Cache。这块显存里存放的是每个token的注意力键值对,在长上下文推理中可以吃掉数十GB显存。TurboQuant用两步数学解决它:PolarQuant处理键(key),QJL处理值(value),最终把精度压到3.5 bit时零损失,2.5 bit时仅有极微小质量下降——内存缩小至少6倍,H100上attention计算最快快8倍。最关键的是:免训练、免微调、免校准,纯软件,下载就能跑。

TurboQuant 压缩效果
原始 FP16
100%
基准
3.5 bit
≈16%
零损失
2.5 bit
≈11%
极微小下降
H100加速
attention最高快8×

消息传出后,投资者读出了"存储芯片需求要被压缩"的信号,三大存储龙头集体单日跌超5%:

SKH
−5%+
SK海力士
005930
−5%+
三星电子
MU
−5%+
美光科技

但这个反应大概率是过度解读。分析指出,TurboQuant压缩的是推理时GPU显存里的KV Cache——这是AI内存需求里的一个切片,不是训练权重,也不是数据集存储。而AI内存需求的核心矛盾在于模型权重和训练期间的激活值,这些TurboQuant根本没碰到。摩根士丹利的判断更乐观:推理效率提升意味着更大规模部署,长期反而利好整个AI存储市场。

值得关注的是技术本身:量化技术正在走向精细化——不再是粗暴降低全局精度,而是针对不同层、不同位置采用差异化策略。TurboQuant能在如此低精度下保持质量,说明KV Cache本身存在大量冗余,这对理解Transformer的信息存储方式本身也有意义。

产品 · 平台

同一天:Gemini 3.1 Flash Live上线 + Search Live覆盖200国 + Live Translate登陆iOS——谷歌在下一盘大棋

三件事同一天发生不是巧合。谷歌周四的动作展示了一套完整的产品矩阵落地逻辑:Gemini模型→开发者基础设施→消费者产品,三层同步推进。

Gemini 3.1 Flash Live
WebSocket双向流式 · 原生音视频 · Agent工具调用优化 · 低延迟对话
Search Live 全球化
200+国家上线 · 摄像头+语音 · 实时视觉问答 · Gemini 3.1驱动
Live Translate iOS
70+语言 · 无需专属硬件 · 任何有麦耳机可用 · 扩展至德法等10+国

Gemini 3.1 Flash Live是今天最有技术含量的发布。它解决的是传统语音AI的架构性问题:以往的ASR→LLM→TTS三级管道每级都有延迟,且中间会丢失语音的情感和语调。Flash Live用单一模型原生处理音频和视频,通过WebSocket实现双向流式——用户说话的同时,模型已经在推理。在复杂功能调用和噪声环境下的表现被官方特别标注,暗示它主要是面向Agent应用的基础设施,而非普通语音助手。

Search Live全球化的意义在于规模:200+国家意味着它已经从实验功能变成Google Search的正式入口之一。用户可以把手机摄像头对准任何物体然后和AI对话——官方举例是指导安装搁板。这和苹果的Vision Pro、Meta的Ray-Ban眼镜走的是同一条"让AI看到现实"的路,但谷歌选择了手机+搜索这条门槛更低的路径。

Live Translate登陆iOS是其中最务实的一步:70+语言,任何有麦克风的有线或无线耳机即可,不需要Pixel手机,不需要专属硬件。这直接让Live Translate从"安卓专属功能"变成了可以在全球大多数手机用户面前展示的能力。三件事叠加,指向同一个战略意图:在OpenAI准备IPO、Anthropic加速商业化的节点,谷歌正在用Gemini作为引擎,快速填满从开发者到消费者的所有产品入口。

值得一提的副线:Gemini还上线了记忆导入功能,允许用户把其他AI助手的对话历史(最大5GB)批量迁移进来。这个功能的目标很明确:降低从ChatGPT或Claude切换过来的摩擦成本。

01
Arm AGI CPU:CEO预测2031年年收入达150亿美元,Meta首批客户
Arm发布首款自研数据中心CPU,CEO Rene Haas称此举旨在扩大Arm架构生态,不会与英伟达正面冲突,Meta已确认成为首批用户。 原文
02
Cohere开源ASR模型Transcribe:2B参数、5.42% WER,HuggingFace语音榜第一
混合Conformer架构(CNN+Transformer),支持14种语言,消费级GPU即可运行,超越Whisper Large v3,计划集成到企业平台North,API免费提供。 原文
03
Granola完成1.25亿美元C轮,估值15亿,从会议笔记转型AI工作平台
推出Spaces功能,引入个人API和企业API,与Claude、ChatGPT连接,让笔记和转录内容成为AI工作流的输入端。 原文
04
法律AI Harvey估值达110亿美元,18个月内完成四轮融资,GIC+红杉领投
从30亿到110亿,累计融资超10亿美元,是近期企业级AI赛道估值增速最快的公司之一。 原文
05
苹果计划iOS 27开放Siri接口,允许ChatGPT等外部AI直接接入
苹果在AI布局上持续收缩自研、开放平台,核心是用iPhone的硬件分发能力换取AI能力补全,同时从佣金中获益。 原文
06
GitHub Copilot 4月24日起默认用个人用户交互数据训练AI,商业账户不受影响
收集范围包括光标周围代码、对话记录、界面导航路径,用户需主动关闭才能退出。Free/Pro/Pro+个人账户均受影响。 原文
07
欧盟AI法案高风险合规期限推迟至2027年12月,新增对"脱衣"应用的禁令
玩具、医疗器械相关AI延至2028年8月,数字水印义务顺延至2026年11月,回应深度伪造色情内容激增问题。 原文
08
Sakana AI的AI Scientist通过ICLR盲审并发表Nature论文
系统自动完成从选题到论文写作的全流程,盲审通过是AI科研工具里程碑式的节点。 原文
09
字节跳动Dreamina Seedance 2.0上线并集成至CapCut,首批开放七国市场
支持文本/图像/视频生成15秒视频,提供多视角渲染和版权保护,适用于创意验证和短内容生产场景。 原文
10
Anthropic确认Claude Code工作日高峰期7%用户配额消耗更快
用户从3月23日起集中反映5小时配额消耗过快,Anthropic最终正式承认配置调整,是高峰期服务质量管理的公开案例。 原文
11
快手2025年可灵AI年化收入运行率超3亿美元,2026年Capex投入260亿人民币
总收入1428亿同比增12.5%,AI主站融合(降本提效+增量增长)双线驱动,是国内视频平台AI变现最具体的财务数据之一。 原文
12
AI流量2025年已超过人类用户流量,ChatGPT等大模型是主要推手
HUMAN Security报告显示自动化流量增速远超人类活动,自动化流量包含非恶意功能,行业需建立新的信任分级机制。 原文
13
马斯克宣布xAI将升级视频生成器Grok Imagine,填补Sora关停留下的市场空白
马斯克在X发文"下一版Grok Imagine的发布将会非常震撼,我们正在加倍投入",并分享了系列AI生成视频。 原文
14
阿里前P10林俊旸离职后发文:AI核心从推理转向智能体式思考,环境设计是关键
回顾Qwen3融合思考与指令模式的尝试,指出未来竞争在于能与环境闭环交互的Agent系统,工程重心应转向环境设计和反作弊基础设施。 原文
谷歌TurboQuant压缩KV Cache 6倍引存储股暴跌5%,同日Search Live覆盖200国、Gemini 3.1 Flash Live上线 | AI 趋势