Subquadratic 宣称突破 LLM 架构瓶颈

MIT Technology Review AI·6月19日 18:40 UTC·作者 Will Douglas Heaven

关键信息

Subquadratic 表示 SubQ 采用完全的亚二次架构，这意味着计算量增长速度低于 transformer 常见的 O(n²) 注意力机制。该模型目前尚未向公众广泛开放，因此这些说法仍主要依赖有限的公开证据和基准测试，而不是广泛的实际体验验证。

资讯摘要

迈阿密的 AI 初创公司 Subquadratic 上个月低调亮相时，提出了一个大胆主张：它已经解决了困扰大语言模型将近十年的数学瓶颈。公司表示，其新模型 SubQ 比现有系统更快、更便宜，而且能耗低得多。Subquadratic 还声称，SubQ 一次可以处理的文本量最多达到大多数其他模型的 12 倍，这意味着它适合审阅数百份文档或大型代码库等任务。更引人注目的是，该公司称 SubQ 在编程等关键任务上的表现，基本可以与 Google DeepMind、OpenAI 和 Anthropic 的顶级模型相媲美。起初，Subquadratic 只公布了少量自发布的测试分数，而且并未让外界广泛使用 SubQ，因此很多人持怀疑态度。

有人甚至在 X 上调侃说，SubQ 不是“自 Transformer 以来最大的突破”，就是“AI Theranos”。一个月后，Subquadratic 发布了更多信息，其中包括第三方评测公司 Appen 对该模型进行的独立测试结果。Appen 的生成式 AI 研究负责人表示，这些结果验证了该架构，并让她觉得这可能会成为“改变游戏规则”的技术。Subquadratic 的联合创始人兼 CTO Alex Whedon 也承认，如果一开始就同步发布第三方基准，会减轻很多质疑，因此未来会在结果经过充分验证后再对外公布。公司联合创始人兼 CEO Justin Dangel 则表示，他们希望开启一个新的效率时代，并认为几年后不会再有人继续基于 transformer 构建模型。

资讯正文

总部位于迈阿密的 AI 初创公司 Subquadratic 上个月低调亮相时抛出了一个大胆的说法。该公司宣布，自己已经解决了一个在过去近十年里一直阻碍大语言模型发展的数学瓶颈。

当时细节并不充分，许多人也并不买账。但 Subquadratic 开始拿出更多证据，分享其新技术的一项独立评估结果。结果显示，这家公司的说法或许值得认真关注。

据 Subquadratic 称，它开发出了一种新型 LLM，名为 SubQ，比市面上任何其他模型都更快、更便宜，而且能耗低得多。该公司还声称，SubQ 一次可处理的文本量最多是大多数其他模型的 12 倍，这使它能够执行一系列数据密集型任务，例如分析数百份文档或整个代码库。

此外，Subquadratic 表示，SubQ 在代码编写等关键任务上的表现，基本上可以与 Google DeepMind、OpenAI 和 Anthropic 推出的最佳模型相匹配。

问题在于，起初该公司除了少量自行发布的测试分数外，并没有提供多少证据来支撑这些说法。而且，SubQ 至今也尚未广泛开放给公众亲自试用。

因此，Subquadratic 的说法遭到质疑也就不足为奇了。人工智能工程师 Dan McAteer 在 X 上概括了整体反应：“SubQ 要么是自 Transformer 以来最大的突破……要么就是 AI 版 Theranos。”

一个月过去后，该公司公布了更多有关其模型的信息，其中包括第三方公司 Appen 进行的额外独立测试结果。

Subquadratic 联合创始人兼首席技术官 Alex Whedon 说：“我们预料到了健康的质疑。”他补充说：“现在回头看，如果在最初宣布的同时就发布第三方基准测试结果，本可以预先化解很多质疑，这也是为什么我们正在花时间确保未来的任何结果在公布前都经过充分验证。”

Subquadratic 请负责评估其他公司模型的 Appen 对 SubQ 进行了测试。这些结果似乎在很大程度上印证了 Subquadratic 的许多说法。Appen 生成式 AI 研究总监 Jeanine Sinanan-Singh 说：“这让我非常兴奋，它验证了他们的架构。”

她补充说：“我当时想，‘哇，这可能会改变游戏规则’，因为模型在速度和效率方面一直表现不佳。但当结果有些惊人时，如果这些话是你自己说的，可信度其实就没那么高。”

SubQ 不会在所有方面取代现有顶级模型，但在某些任务上，它可能以通常成本的一小部分带来巨大的速度提升。不过，Subquadratic 坚称，从长远来看，这一突破可能会改变 LLM 的构建方式。联合创始人兼首席执行官 Justin Dangel 说：“我们希望自己正在开启一个效率新时代。”他表示：“我们不认为几年后还会有人继续基于 transformer 来构建模型。”

为了理解 Subquadratic 的说法为何意义重大，我们先来看看大多数 LLM 是如何工作的。LLM 内部的关键机制是一种称为 transformer 的神经网络，它运行的是一种被称为 dense attention 的过程。如今的 LLM 通常会把多个 transformer 串联起来。（LLM 时代的奠基论文由 Google 的研究人员于 2017 年发表，题为“Attention Is All You Need”。）

Dense attention 的工作方式是这样的：当一个 transformer 处理一段文本时，它会先用一个数字对每个词（或词的一部分，也就是一个 token）进行编码。为了捕捉整段文本的含义，它随后会把这些数字中的每一个与该文本中其他所有数字相乘。比如，一段 10,000 个词的文本会触发近 5,000 万次单独的乘法运算。这意味着大量计算，也是 LLM 以耗电惊人而闻名的主要原因。

Dangel 说：“如果你想总结《了不起的盖茨比》，你必须把第一个词和最后一个词联系起来看，然后你还得看所有其他组合。”

随着文本长度增加，计算量会急剧上升。这是因为每增加一个数字，都必须与之前所有其他数字相乘。把词数翻倍，计算量就会大致增加到原来的四倍，这种增长速度被称为二次扩张。

（你可以自己想象一下：画一个圆，在边缘上标出一些点。每个点代表一个 token。然后在每对点之间画线，表示这两个 token 的乘法。一个有 5 个点的圆会有 10 条线交叉其中。把点数增加到 10 个，就会有 45 条线；20 个点则有 190 条线，依此类推。）

削减成本

Subquadratic 的解决方案是抛弃 transformer 的核心操作 dense attention，转而采用所谓的 sparse attention，以大幅减少所需的计算量。Sparse attention 不会把分配给每个 token 的数字与其他每一个数字都相乘，而是只选择其中一部分数字来相乘。其思路是，文本中词与词之间并非所有关系都重要。

Whedon 说：“Sparse attention 认为，并非所有这些关系都重要，因为它们确实不是。你在读一本书时，不会去看第一和第二个词、第一和第三个词——那太疯狂了。”

这是一种简单的方法，而且 Subquadratic 并不是第一个尝试这样做的公司。曾在 OpenAI 工作、如今独立从事 AI 研究的 Will Depue 说：“几乎能想到的一切都已经被尝试过了。它不是不可能，但更像是在跑完四分钟一英里。”

此前用于选择哪些数字参与相乘、哪些数字忽略的技术，并没有产生一种能够像 dense attention 那样出色捕捉文档含义的机制。

Subquadratic 声称自己终于破解了这个问题。它将 SubQ 定位为首个在性能上可与主流 dense-attention 模型相媲美的 sparse-attention LLM。

“从历史上看，大多数机制都采用固定模式，比如总是把第一个词和第五个词进行比较，”Whedon说。“这相当受限。语言太复杂了，不可能只靠这种方式。因此，我们的机制独特之处之一就在于，我们会动态选择哪些内容更重要。”

该公司不会明确说明 SubQ 究竟是如何选择关注哪些词语的，但这个选择是在运行时即时计算的，而且会根据模型接收到的每一段文本而变化。“这算是我们的核心秘密之一，”Whedon说。

测试，测试

其结果是，对于某些任务，SubQ 的运行速度可能比大多数其他模型更快，成本也更低。Appen 对 SubQ 进行了几项标准测试。在一项纯速度测试中，这种测试设定的是模型理论上可运行的速度基线，而不是评估模型实际能做什么，Appen 发现 SubQ 的速度比使用 FlashAttention 的模型快 56 倍。FlashAttention 是一种此前的稀疏注意力技术。

在 LiveCodeBench 上——这项测试考察模型在来自真实竞赛的高难度编程题上的表现——SubQ 得分为 89.7%，与其他顶级编程模型处于同一水平。“这款模型在编程方面仍然提供前沿级别的性能，”Appen 的 Sinanan-Singh 表示。

Subquadratic 关于成本的说法更难验证，因为 SubQ 目前尚未广泛开放。根据 Dangel 的说法，通过 Nvidia 开发、用于评估模型从大规模数据集中检索信息能力的 RULER 128 来运行 Anthropic 的 LLM Opus 4.6，成本是 2600 美元。那么 SubQ 呢？“只花了我们 8 美元，”他说。

SubQ 看起来确实能够处理非常大的数据集。该模型的上下文窗口——大致相当于工作记忆——最长可达 1200 万个 token。如今大多数顶级模型的上下文窗口长度为 100 万个 token。在 Whedon 为我做的一次演示中，他让 SubQ 执行一项任务，这项任务要求它基于 400 份文档中的信息进行推理。它在几秒钟内就给出了回应。当他把同样的任务交给 Perplexity——一款流行的、由 LLM 驱动的搜索引擎——时，它无法加载全部 400 份文档。

Appen 还进行了“大海捞针”测试，用于评估模型从大量数据中检索特定信息的能力。在其报告中，Appen 表示，SubQ 在上下文窗口长度为 600 万和 1200 万个 token 时都取得了 98% 的成绩，“在极少有模型会接受测试的规模上，保持了接近完美的长上下文检索能力”。

好得令人难以置信？

尽管分数很高，基准测试也只能呈现模型能做什么、不能做什么的一部分。对非常特定条件下的测试，不能替代在广泛真实任务中运行模型的结果。

Subquadratic 正在把 SubQ 定位为一款面向编程和超大规模数据搜索的模型。该公司表示，已有数万名潜在用户注册了抢先体验，其中包括 500 多家企业客户。但等待名单很长，到目前为止，公司向极少数人开放了使用权限。Subquadratic 的回应是，这是一家新成立的小公司，资源有限，无法同时服务太多人。

在更多人拿到这个模型并亲自试用之前，某种程度的怀疑是合理的。一个令人不安的问题在于，Subquadratic 为了启动 SubQ，复用了中国开源模型 Qwen 某个版本的权重（即模型在训练过程中形成、决定其行为的数值），而不是从头训练。模型开发者经常会这么做，但这与 Subquadratic 声称其已经彻底重新发明了 LLM 的运作方式相冲突。

Depue 说：“他们也许确实做出了一些真实而有用的东西。但现有公开证据还不足以支持他们已经解决了二次注意力瓶颈这一更强的说法。”

与此同时，Subquadratic 联合创始人 Whedon 坚称，做出不同的东西是他唯一的选择。他说，如果你想打造一个有竞争力的模型，就必须有新想法：“我们的处境比 OpenAI 更艰难。”

来源与参考

收录于 2026-06-20