谷歌TurboQuant算法将大语言模型内存减少6倍且不损失质量
Ars Technica AI··作者 Ryan Whitwam
收录于 2026-03-28

正文
大语言模型因键值缓存占用大量内存,该缓存存储中间注意力计算结果。谷歌的TurboQuant算法通过高效压缩这一缓存来解决瓶颈问题。它采用两步流程:首先用PolarQuant将高维向量映射为极坐标(半径和角度)以减少冗余,再进行精度降低处理,且不影响准确率。
早期测试显示其在Gemma和Mistral等模型上实现最高6倍内存节省和8倍推理加速。关键在于它是后处理步骤,无需重新训练模型,因此可立即应用于现有开源大语言模型。
关键信息
TurboQuant通过两个阶段压缩KV缓存:首先使用PolarQuant将向量对映射为极坐标(半径和角度),然后进行量化处理——无需重新训练或微调模型。
为什么重要
这项突破可能大幅降低部署大语言模型的硬件需求,使它们能在消费级设备上运行,并降低AI服务在云端的基础设施成本。
配图

Tag
来源与参考