谷歌TurboQuant算法将大语言模型内存减少6倍且不损失质量

Ars Technica AI··作者 Ryan Whitwam

收录于 2026-03-28

谷歌TurboQuant算法将大语言模型内存减少6倍且不损失质量

正文

大语言模型因键值缓存占用大量内存,该缓存存储中间注意力计算结果。谷歌的TurboQuant算法通过高效压缩这一缓存来解决瓶颈问题。它采用两步流程:首先用PolarQuant将高维向量映射为极坐标(半径和角度)以减少冗余,再进行精度降低处理,且不影响准确率。

早期测试显示其在Gemma和Mistral等模型上实现最高6倍内存节省和8倍推理加速。关键在于它是后处理步骤,无需重新训练模型,因此可立即应用于现有开源大语言模型。

关键信息

TurboQuant通过两个阶段压缩KV缓存:首先使用PolarQuant将向量对映射为极坐标(半径和角度),然后进行量化处理——无需重新训练或微调模型。

为什么重要

这项突破可能大幅降低部署大语言模型的硬件需求,使它们能在消费级设备上运行,并降低AI服务在云端的基础设施成本。

配图

谷歌TurboQuant算法将大语言模型内存减少6倍且不损失质量

Tag

来源与参考

  1. 原始链接
  2. Google's TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x