LLMs+ 旨在自主解决复杂问题
MIT Technology Review AI··作者 Will Douglas Heaven
关键信息
专家混合(MoE)通过按输入激活相关子模型来降低计算成本,而递归 LLM 将大输入拆分为小块,由多个模型副本处理以提高可靠性。上下文窗口已扩展至最多一百万标记。
资讯摘要
文章认为,人工智能的未来在于增强型大型语言模型(称为 LLMs+),它们可以独立完成复杂的多步骤问题。为了实现这一点,研究人员正在专注于通过专家混合等技术使模型更高效,其中每项任务只激活模型的部分。另一种方法是使用递归 LLM 将长输入拆分为较小部分,由多个模型副本处理,从而在长时间任务中提高准确性。
上下文窗口——模型一次能处理的文本量——已大幅增长,现在可达一百万个标记。然而,更大的上下文也增加了出错或失去焦点的风险。这些创新旨在将 LLM 转变为无需人类持续监督即可解决难题的自主代理。
资讯正文
当ChatGPT在2022年底以实验原型形式发布时,OpenAI的聊天机器人迅速成为数亿人的日常万能工具。像ChatGPT这样的大语言模型(LLMs)被视为科技行业的未来:整个产业陷入狂热,各大公司争相推出竞争产品。
旧技术世界的灰烬尚未落定,但人们已经迫不及待地开始思考下一个突破点。剧透一下:继LLMs之后的下一个大事件仍然是LLMs,只不过更强大。我们可以称它们为LLMs+。
挑战在于让LLMs能够解决那些人类需要几天甚至几周才能完成的复杂多步骤问题。如果它们要帮助我们应对最严峻的挑战(这是顶级实验室的明确目标),那么它们就必须能够在更长时间内独立工作。
要实现这一目标,有几件事必须发生。首先,LLMs必须变得更高效、运行成本更低。在这方面已有不少重大进展。一种称为“专家混合”的方法将大型语言模型拆分成多个小部分,并赋予每个部分不同的任务专长。这意味着在特定时刻只需激活模型的部分组件即可。
另一种提高效率的方式可能是放弃当前几乎所有LLMs所依赖的Transformer架构,转而采用扩散模型——这是一种常用于图像和视频生成的神经网络结构。此外还有更多实验性方案。去年,中国人工智能公司DeepSeek展示了一种将文本编码成图像的方法,从而大幅降低计算开销。
另一个关键进步领域与所谓的LLM上下文窗口有关。这指的是模型一次可以处理的文字或视频量,相当于它的工作记忆容量。几年前,LLMs一次只能处理几千个标记(即词或词的一部分),或者几十页文本;而最新的模型如今已具备长达百万标记的上下文窗口——相当于一整套书籍。然而,上下文窗口越大、任务越长,模型就越容易偏离轨道或忘记自己正在做什么。对此也有突破性的进展。麻省理工学院CSAIL的研究人员最近发表的一篇论文提出了一种名为递归LLMs的新方法:与其一次性加载庞大的上下文窗口,递归LLMs会把输入分解成若干块,再将每一块发送给一个自身的副本,该副本可能还会进一步细分这些块,并将结果传递给更多的副本。多个LLMs协同处理较小的信息片段,在执行长期且复杂的任务时表现得更加可靠。最终的结果是一种LLM,但已不再是我们熟知的样子。
深度解析
OpenAI正全力投入打造全自动研究人员
独家专访OpenAI首席科学家雅库布·帕霍茨基,探讨该公司新设立的重大挑战及人工智能的未来。
《精灵宝可梦GO》如何为配送机器人提供精准的世界视角
独家报道:Niantic的人工智能衍生公司正在利用玩家贡献的300亿张城市地标图像训练新的世界模型。
了解特别优惠、热门新闻、即将举行的活动等内容。
来源与参考
收录于 2026-04-22