谷歌TurboQuant技术降低AI内存占用以削减成本
ZDNET AI··作者 Tiernan Ray
关键信息
TurboQuant专注于减少键值(KV)缓存的大小,这是大语言模型中最大的内存消耗之一,尤其是在像Gemini 3这样具有更大上下文窗口的模型中。该技术使用先进的向量量化方法压缩数据,而不影响模型性能。
资讯摘要
谷歌的TurboQuant是一种优化AI推理的新方法,通过大幅减少键值缓存中的内存使用来解决大型语言模型的主要低效问题。它利用极端量化技术压缩键和值的数据表示,使模型运行更快且占用更少内存。这使得在资源有限的设备上本地运行AI模型成为可能。
尽管如此,专家警告称这可能会引发杰文斯悖论:当AI运行成本下降时,需求将上升,从而继续推动对AI芯片的投资。尽管如此,TurboQuant仍是实现可持续AI扩展的重要一步,特别是在模型复杂度和上下文窗口不断增长的背景下。

资讯正文
谷歌的TurboQuant能做什么,不能做什么:应对人工智能成本飙升
谷歌的TurboQuant可以显著降低人工智能的内存使用量。TurboQuant是对人工智能成本不断攀升的一种回应。一个积极的结果是,通过降低推理成本,使人工智能更加普及。
由于计算机组件(如内存)价格飙升,人工智能的成本急剧上升。上周,谷歌提出了一项名为TurboQuant的技术创新来应对这一挑战。谷歌研究人员在博客中讨论了TurboQuant,这与DeepSeek AI的突破类似,是一项旨在大幅降低人工智能成本的深刻尝试。它可能通过减少人工智能的内存占用,提高模型效率,带来持久的好处。
此外:什么是DeepSeek AI?是否安全?你需要知道的一切
然而,正如DeepSeek并未阻止对AI芯片的大规模投资一样,观察人士认为TurboQuant也可能会导致人工智能投资持续增长。这就是所谓的杰文斯悖论:让某样东西更高效,反而会导致该资源的整体使用量增加。
不过,TurboQuant是一种可能帮助在本地运行人工智能的方法,因为它降低了大型语言模型对硬件的需求。
更多内存,更多金钱
目前,人工智能最大的成本因素——而且在未来很长一段时间内可能仍是如此——就是对内存和存储技术日益增长的依赖。人工智能非常依赖数据,这种需求在计算史上前所未有。
TurboQuant最早由谷歌研究人员一年前在一篇论文中描述,其核心方法是“量化”(quantization),即减少表示数据所需的位数和字节数。
此外:为什么2026年你会为人工智能支付更多费用,以及3个省钱建议
量化是一种数据压缩形式,用更少的比特表示相同数值。在TurboQuant中,重点在于所谓的“键值缓存”(key-value cache),简称KV缓存,这是人工智能中最大的内存消耗之一。
当你向谷歌的Gemini聊天机器人输入内容时,AI需要将你的输入与一个数据库式的存储库进行比较,这个存储库包含用于匹配的数据。
你输入的内容称为查询(query),它会与存储在内存中的数据(称为键)进行比对,找出数值上的相似度。然后,这个键被用来从内存中检索出AI应该返回给你的具体词语,也就是所谓的值(value)。
通常情况下,每次你输入内容,AI模型都要重新计算一个新的键和值,这会拖慢整个操作。为了加快速度,机器会在内存中保留一个键值缓存,存储最近使用的键和值。
但缓存本身变成了一个问题:你越频繁地使用模型,键值缓存占用的内存就越多。“这种扩展在内存使用和计算速度方面是一个重大瓶颈,特别是在长上下文模型中,”谷歌首席作者阿米尔·赞迪耶(Amir Zandieh)及其同事指出。
此外:人工智能并非变得更聪明,而是变得更耗电、更昂贵
情况更糟的是,人工智能模型正变得越来越复杂,其键和值也越来越复杂,这被称为“上下文窗口”(context window)不断扩大。
这为模型提供了更多的搜索选项,可能提升准确性。当前版本的Gemini 3将上下文窗口大幅扩展至一百万个token,而此前最先进的模型如OpenAI的GPT-4仅支持32,768个token的上下文窗口。更大的上下文窗口也意味着键值缓存(key-value cache)消耗的内存更多。
为了加快量化过程以实现实时处理,解决方案是量化键和值,从而减少整体占用空间。Zandieh及其团队在博客中声称,TurboQuant的数据压缩效果‘非常显著’。他们写道:‘在不牺牲准确性的前提下缩小KV缓存大小至关重要。’
量化技术已被谷歌和其他公司多年用于压缩神经网络。TurboQuant的新颖之处在于它能在实时运行时进行量化。以往的压缩方法是在编译阶段完成的,也就是在模型部署前就固定下来。
Zandieh指出,这种做法并不足够。KV缓存是一个动态的摘要,记录了用户与AI聊天机器人交互时‘推理时间’所学到的内容,其中键和值都在不断变化。因此,量化必须足够快且足够准确,才能保持缓存小的同时又保持最新状态。‘Turbo’一词表明,这种方法比传统的编译期量化要快得多。
TurboQuant采用两阶段策略。第一阶段是对查询和键进行压缩。由于查询和键本质上是向量数据,可以在X-Y坐标图上表示为一条直线,通过旋转这条线可以实现几何压缩。他们将这种旋转称为‘PolarQuant’。通过随机尝试不同的旋转方式并恢复原始直线,他们找到了一种用更少比特数就能保留精度的方法。
正如他们所说:‘PolarQuant充当高效压缩桥梁,将笛卡尔输入转换为紧凑的极坐标‘简写’形式,便于存储和处理。’虽然压缩后的向量在查询与键比较时仍会产生误差——即两个向量的‘内积’误差——但他们使用了第二种方法QJL来修正这一问题,该方法由Zandieh于2024年提出。
这种方法保留了两个向量中的一个原始状态,因此将压缩(量化)后的向量与未压缩的向量相乘,可以作为测试以提高乘法运算的准确性。研究人员通过将TurboQuant应用于Meta Platforms开源的Llama 3.1-8B人工智能模型进行了测试,发现‘TurboQuant在所有基准测试中均实现了完美的下游结果,同时将键值缓存(KV cache)内存大小减少了至少6倍’——即所需KV缓存减少六倍。
这种方案与其他压缩KV缓存的方法不同,比如去年DeepSeek采用的方法,后者通过限制键和值的搜索来加速推理过程。
在另一项测试中,使用谷歌的Gemma开源模型以及法国AI初创公司Mistral的模型,研究人员写道:‘TurboQuant证明它可以将键值缓存压缩到仅3比特,且无需训练或微调,也不会影响模型准确率,同时运行速度比原始大语言模型(Gemma和Mistral)更快。’他们还指出:‘该方法实现起来极为高效,几乎不会带来任何运行时开销。’
那么,这是否会让AI变得更便宜?Zandieh及其团队预计,TurboQuant将在AI推理的实际应用中产生重大影响。他们写道:‘随着AI越来越多地融入各类产品,从大语言模型到语义搜索,这项基础向量量化工作的重要性将前所未有。’
不过,如果考虑当前自主运行的AI代理程序(如OpenClaw软件),AI的成本不仅仅取决于KV缓存。其他内存用途,例如数据库记录的读取和存储,最终也会影响代理长期运行的效率。
上周关注AI芯片领域的业内人士认为,就像DeepSeek AI的效率并未阻碍去年的AI投资一样,TurboQuant也不会改变这一趋势。 Merrill Lynch银行家Vivek Arya写信给担心DRAM制造商美光科技(Micron Technology)的客户时表示,TurboQuant只是更高效地利用AI资源。他写道:‘内存效率提升6倍,可能带来模型规模或上下文长度(KV缓存分配)增加6倍,而不是内存需求减少6倍。’
尽管如此,TurboQuant确实能让某些AI实例更具经济性,尤其适用于本地部署场景。例如,在硬件预算有限的情况下,较大的KV缓存和更长的上下文窗口对运行某些AI模型的压力会相对较小。这对希望将自己的MacBook Neo或Mac mini当作低成本本地AI服务器的OpenClaw用户来说无疑是个好消息。
来源与参考
收录于 2026-03-31