LLMs+ 旨在自主解决复杂问题

MIT Technology Review AI·4月22日 04:45 UTC·作者 Will Douglas Heaven

关键信息

专家混合（MoE）通过按输入激活相关子模型来降低计算成本，而递归 LLM 将大输入拆分为小块，由多个模型副本处理以提高可靠性。上下文窗口已扩展至最多一百万标记。

资讯摘要

文章认为，人工智能的未来在于增强型大型语言模型（称为 LLMs+），它们可以独立完成复杂的多步骤问题。为了实现这一点，研究人员正在专注于通过专家混合等技术使模型更高效，其中每项任务只激活模型的部分。另一种方法是使用递归 LLM 将长输入拆分为较小部分，由多个模型副本处理，从而在长时间任务中提高准确性。

上下文窗口——模型一次能处理的文本量——已大幅增长，现在可达一百万个标记。然而，更大的上下文也增加了出错或失去焦点的风险。这些创新旨在将 LLM 转变为无需人类持续监督即可解决难题的自主代理。

资讯正文

当ChatGPT在2022年底以实验原型形式发布时，OpenAI的聊天机器人迅速成为数亿人的日常万能工具。像ChatGPT这样的大语言模型（LLMs）被视为科技行业的未来：整个产业陷入狂热，各大公司争相推出竞争产品。

旧技术世界的灰烬尚未落定，但人们已经迫不及待地开始思考下一个突破点。剧透一下：继LLMs之后的下一个大事件仍然是LLMs，只不过更强大。我们可以称它们为LLMs+。

挑战在于让LLMs能够解决那些人类需要几天甚至几周才能完成的复杂多步骤问题。如果它们要帮助我们应对最严峻的挑战（这是顶级实验室的明确目标），那么它们就必须能够在更长时间内独立工作。

要实现这一目标，有几件事必须发生。首先，LLMs必须变得更高效、运行成本更低。在这方面已有不少重大进展。一种称为“专家混合”的方法将大型语言模型拆分成多个小部分，并赋予每个部分不同的任务专长。这意味着在特定时刻只需激活模型的部分组件即可。

另一种提高效率的方式可能是放弃当前几乎所有LLMs所依赖的Transformer架构，转而采用扩散模型——这是一种常用于图像和视频生成的神经网络结构。此外还有更多实验性方案。去年，中国人工智能公司DeepSeek展示了一种将文本编码成图像的方法，从而大幅降低计算开销。

另一个关键进步领域与所谓的LLM上下文窗口有关。这指的是模型一次可以处理的文字或视频量，相当于它的工作记忆容量。几年前，LLMs一次只能处理几千个标记（即词或词的一部分），或者几十页文本；而最新的模型如今已具备长达百万标记的上下文窗口——相当于一整套书籍。然而，上下文窗口越大、任务越长，模型就越容易偏离轨道或忘记自己正在做什么。对此也有突破性的进展。麻省理工学院CSAIL的研究人员最近发表的一篇论文提出了一种名为递归LLMs的新方法：与其一次性加载庞大的上下文窗口，递归LLMs会把输入分解成若干块，再将每一块发送给一个自身的副本，该副本可能还会进一步细分这些块，并将结果传递给更多的副本。多个LLMs协同处理较小的信息片段，在执行长期且复杂的任务时表现得更加可靠。最终的结果是一种LLM，但已不再是我们熟知的样子。

深度解析

OpenAI正全力投入打造全自动研究人员

独家专访OpenAI首席科学家雅库布·帕霍茨基，探讨该公司新设立的重大挑战及人工智能的未来。

《精灵宝可梦GO》如何为配送机器人提供精准的世界视角

独家报道：Niantic的人工智能衍生公司正在利用玩家贡献的300亿张城市地标图像训练新的世界模型。

了解特别优惠、热门新闻、即将举行的活动等内容。

来源与参考

收录于 2026-04-22