谷歌TurboQuant压缩KV Cache 6倍引存储股暴跌5%,同日Search Live覆盖200国、Gemini 3.1 Flash Live上线
谷歌TurboQuant:6倍KV Cache压缩让SK海力士单日跌5%,但市场读对了吗?
谷歌Research周四发布TurboQuant,解决的是LLM推理时真正的性能瓶颈:KV Cache。这块显存里存放的是每个token的注意力键值对,在长上下文推理中可以吃掉数十GB显存。TurboQuant用两步数学解决它:PolarQuant处理键(key),QJL处理值(value),最终把精度压到3.5 bit时零损失,2.5 bit时仅有极微小质量下降——内存缩小至少6倍,H100上attention计算最快快8倍。最关键的是:免训练、免微调、免校准,纯软件,下载就能跑。
消息传出后,投资者读出了"存储芯片需求要被压缩"的信号,三大存储龙头集体单日跌超5%:
但这个反应大概率是过度解读。分析指出,TurboQuant压缩的是推理时GPU显存里的KV Cache——这是AI内存需求里的一个切片,不是训练权重,也不是数据集存储。而AI内存需求的核心矛盾在于模型权重和训练期间的激活值,这些TurboQuant根本没碰到。摩根士丹利的判断更乐观:推理效率提升意味着更大规模部署,长期反而利好整个AI存储市场。
值得关注的是技术本身:量化技术正在走向精细化——不再是粗暴降低全局精度,而是针对不同层、不同位置采用差异化策略。TurboQuant能在如此低精度下保持质量,说明KV Cache本身存在大量冗余,这对理解Transformer的信息存储方式本身也有意义。
同一天:Gemini 3.1 Flash Live上线 + Search Live覆盖200国 + Live Translate登陆iOS——谷歌在下一盘大棋
三件事同一天发生不是巧合。谷歌周四的动作展示了一套完整的产品矩阵落地逻辑:Gemini模型→开发者基础设施→消费者产品,三层同步推进。
Gemini 3.1 Flash Live是今天最有技术含量的发布。它解决的是传统语音AI的架构性问题:以往的ASR→LLM→TTS三级管道每级都有延迟,且中间会丢失语音的情感和语调。Flash Live用单一模型原生处理音频和视频,通过WebSocket实现双向流式——用户说话的同时,模型已经在推理。在复杂功能调用和噪声环境下的表现被官方特别标注,暗示它主要是面向Agent应用的基础设施,而非普通语音助手。
Search Live全球化的意义在于规模:200+国家意味着它已经从实验功能变成Google Search的正式入口之一。用户可以把手机摄像头对准任何物体然后和AI对话——官方举例是指导安装搁板。这和苹果的Vision Pro、Meta的Ray-Ban眼镜走的是同一条"让AI看到现实"的路,但谷歌选择了手机+搜索这条门槛更低的路径。
而Live Translate登陆iOS是其中最务实的一步:70+语言,任何有麦克风的有线或无线耳机即可,不需要Pixel手机,不需要专属硬件。这直接让Live Translate从"安卓专属功能"变成了可以在全球大多数手机用户面前展示的能力。三件事叠加,指向同一个战略意图:在OpenAI准备IPO、Anthropic加速商业化的节点,谷歌正在用Gemini作为引擎,快速填满从开发者到消费者的所有产品入口。
值得一提的副线:Gemini还上线了记忆导入功能,允许用户把其他AI助手的对话历史(最大5GB)批量迁移进来。这个功能的目标很明确:降低从ChatGPT或Claude切换过来的摩擦成本。