AI在文本说服中击败专家人类

Import AI··作者 Jack Clark

关键信息

研究者发现,AI 的优势主要来自更快地产生更多信息;当把 AI 限制为人类长度的消息和人类写作速度时,这种优势几乎消失。在捐赠实验中,AI 为拯救儿童组织筹款的效果几乎是英国一家募捐公司的专业劝募员的三倍。

资讯摘要

Import AI 462 报道了一项研究,考察 AI 系统是否能在真实的文本对话中比人类更会说服别人。研究团队来自牛津大学、英国 AI Security Institute、斯坦福大学和伦敦政治经济学院,共进行了四项实验,覆盖 18,978 次对话和 6,923 名参与者。第一项研究中,参与者先对 10 个英国政策立场之一表明态度,然后通过一个定制平台被随机分配与 AI 劝说者或人类劝说者实时聊天。研究者表示,AI 的表现超过了他们测试的所有人类类别,包括随机普通人、经过竞赛筛选的普通人以及顶尖辩手。第二项研究中,43 名回归的顶尖辩手拿到了一个基于击败他们的 AI 构建的训练工具,工具里包含提示词、带标注的对话记录,以及在任一历史对话节点上 AI 会如何回答的替代方案。

训练提升了人类表现,但没有人能超过 AI,因此人类与 AI 的差距缩小了,但并未消失。第三项研究把 AI 限制为人类速度和人类长度的回复,结果 AI 相对最强人类组的优势从 +4.1 个百分点降到统计上不显著。第四项研究招募了来自英国一家募捐公司的 19 名资深劝募员,使用同样的任务后,AI 仍然比他们高出 5.9 个百分点。在真实金钱捐赠实验中,AI 为拯救儿童组织筹款的效果几乎是专业劝募员的三倍。新闻还提到,表现最强的是 Claude Opus 4.1 和 4.6,其次是来自 OpenAI、Google 和 xAI 的模型。

AI在文本说服中击败专家人类

资讯正文

欢迎来到 Import AI,这是一本关于 AI 研究的新闻通讯。Import AI 依靠 arXiv、卡布奇诺,以及读者的反馈运转。如果你愿意支持它,请订阅。

现在订阅

AI 可以在说服力上决定性地胜过人类:

……“AI 系统的说服力始终比专家人类更强”……

英国牛津大学、UK AI Security Institute、斯坦福大学以及伦敦政治经济学院的研究人员,研究了 AI 系统在促使人们改变对政策问题的看法,以及改变他们可能捐给慈善机构的金额方面,究竟有多强的说服能力。结果非常明确:在四项实验中,涉及 6,923 人的 18,978 次对话里,今天的 AI 系统在带来现实世界后果的文本说服方面已经比人类更强——不过,如果我们对 AI 系统施加一些人为限制,人类也可以与它们相当。

“即使专家人类自行选择议题、提前研究、接受数小时的现场结构化练习,并被 1,000 英镑现金奖金激励,AI 系统也始终比他们更具说服力,”他们写道。“AI 的优势来自于能够迅速调用更大量的信息:经过训练后,专家人类可以与一个被限制以人类速度、并使用人类长度消息回复的 AI 打成平手。”

“AI 的优势还延伸到了有后果的现实世界行为:在为 Save the Children 筹集真实货币捐款方面,AI 的效果几乎是英国一家募捐公司的专业上门募捐员的 3 倍。”

他们研究了什么,以及发现了什么:

研究人员在四项不同的研究中评估了这些 AI 系统。

研究 1——说服:

“被说服者首先在 0–100 的量表上,对 10 项预先设定的英国政策立场中的一项表示认同程度,然后通过一个定制的多人平台,实时随机分配去与一位 AI 或一位人类说服者进行文字对话,”他们写道。“研究 1 的结果表明,平均而言,AI 超过了我们测试过的每一类人类说服者:随机普通人、通过锦标赛筛选的普通人,甚至是顶尖辩手。”

研究 2——人类训练:

在研究 2 中,研究人员“给了 43 名回归的 Elite Debaters 一个围绕那位击败他们的 AI 打造的训练工具。该工具允许辩手与 AI 聊天,查看它是如何被提示的,浏览自己在研究 1 中的对话记录,并附带每段对话使被说服者态度转变了多少的注释;还可以让他们在任何一份过往对话记录的任何一点上,看到如果换作自己,AI 会怎么说”。这项研究的结果是人类表现有所提升,但没有任何一位超过 AI。“因此,训练缩小了人类与 AI 之间的差距,但并未将其消除。”

研究 3——受限 AI:

接下来,研究人员试图限制 AI,以便让人类获得更多优势。研究人员写道:“当 AI 被迫以人类的消息长度、按照人类的写作速度来写作时,它相对于第二项研究中最强的人类对照组(接受过训练的精英辩手)的优势,从 +4.1 个百分点下降到了不显著的 0.0 个百分点。” “AI 产生书面内容的速度,很可能就是其说服力优势的来源……在对 AI 进行限制后,受劝说者在对话后的对伙伴评分中,降幅最大的项目集中在两个信息性条目上:对方论点的强度,以及受劝说者觉得自己从对话中学到了多少。”

第四项研究——真实世界的专业经验和真实世界的金钱:

研究人员招募了 19 名来自英国一家公司的资深街头募捐员,然后让他们完成与第一项研究相同的任务。研究人员写道:“AI 仍然比专业募捐员高出 5.9 个百分点。” 在评估真实金钱捐赠时,这一效果依然存在——研究人员“与英国募捐公司 AppcoUK 合作,将第四项研究聚焦于他们的募捐员最擅长为之筹款的对象:救助儿童会(Save the Children)。AppcoUK 提供的募捐团队从 2016 年到 2023 年一直为该慈善机构开展真实筹款活动,在此期间从 22,583 名捐赠者那里筹得 824,297 英镑。与 AI 或从 AppcoUK 招募的 18 名募捐员交谈后,受劝说者可以将 1 英镑研究奖金中的任意部分捐给救助儿童会。” 在这里,结果再次具有显著性:“AI 促成的真实金钱捐赠明显多于募捐员,以 1 英镑奖金的 +10.8 个百分点领先,”他们写道。AI 提高了“做出任何捐赠的受劝说者比例,以及捐赠者的平均捐赠额”。

这为何重要——如果 AI 能在说服力上胜过我们,那么掌控 AI 的人就能改变社会:

他们写道:“一种能够说服甚至人类专家的 AI 所产生的影响,可能是影响力向已经强势的行动者进一步集中。” 另一方面,“如果高度强大的说服能力变得廉价且广泛可得,它可能帮助资源不足的行动者(例如自诉诉讼人和公设辩护人、小型慈善机构、草根活动人士)与更成熟、资金更充足的竞争对手竞争,缩小长期存在的司法可及性差距,并更广泛地支持公民倡议。”

这为我们摆出了一道社会选择题:我们要如何监管 AI 的说服用途,又要如何观察这些能力如何改变不同行动者之间的力量平衡?我们是否只想让市场来分配这些能力?这是一种做法,不过这意味着广告和营销之类的东西会变得更有效,或许还会制造负外部性。另一方面,如果把说服能力只留给政府,那么就会有把权力集中到政府手中的风险——如果这种能力被威权政权用来维持自身统治,那将可能极其危险。我们必须就如何处理这项技术作出选择,正如政治中所说的那样,“不投票也是一种投票”。

“我们的发现表明,前沿 AI 作为一种对话式说服者,比我们能够招募到的最有准备、最有激励也最专业的人类更有能力。对人类进行训练似乎并不能缩小这种差距,”他们写道。“随着这些系统的可及性持续扩大,问题已经不再是 AI 能否胜过人类,而是这种能力将如何、在何处、以及代表谁来行使。”

AI 系统在说服专家人类方面胜出(arXiv)

关于这项研究的推文串(AISI 研究员 Kobi Hackenburg)

***

我们什么时候会拥有自给自足的 AI?这完全取决于人形机器人:

……RSI 之后会是什么?自我维持型 AI……

今年我花了很多时间写递归自我改进——也就是我们或许很快就能打造出足够聪明的 AI 系统,使其能够自主设计自己的继任者。但 RSI 仍然需要数据中心,而这些数据中心又需要设备、电力以及其他一切。

Asterisk 杂志的一篇有趣访谈提出了一个问题:我们什么时候可能拥有自我维持型 AI?受访者之一 Ajeya Cotra 是一名预测者,也是 METR 的工作人员,她将其定义为“与物理基础设施集成的 AI 系统——工厂、矿山、晶圆厂、用于操作这些设施的机器人——以至于它们不需要人类劳动提供任何认知或体力输入,就能维持自身种群的增长”。

它离我们有多远?

Ajeya 认为,我们可能在 10 年内实现自我维持型 AI(也就是到 2036 年)。另一位受访者、记者兼《Understanding AI》作者 Timothy B. Lee 的时间表要长得多:“在 20 年内发生的概率不到 10%。我会说,永远不会发生的概率有 10% 到 20%,而我的中位数判断是 50 年。”

会有哪些挑战——隐性知识可能就是其中之一:

“想象一下,如果整个半导体行业的所有员工都消失了——机器和教材都还在,但人没了。其余人类要多久才能把晶圆厂重新运转起来?很可能要几十年。因为即使你有教材,这些机器里也包含大量隐性知识,”Lee 指出。Ajeya 的回应是,这种情况也许可以被技术绕过去:“对于隐性知识的假设,有两个反驳。其一是,我们会用强化学习在这些隐性知识上训练 AI 系统,因为把台湾工人正在做的事情自动化是有利润的。其二是,AI 可能会变得非常具备通用智能,能够通过尝试、阅读教材并高效实验,迅速弄清新事物。”

如果人们想在接下来的 2 到 3 年里看到哪些迹象,才会认为自我维持型 AI 可能很快到来?

Ajeya:

“我会想看到一条图表曲线,显示机器人手部性能的提升;另一条曲线,显示我们制造人形机器人的速度”,而在认知方面,则只需关注评估环境扰动鲁棒性等内容的基准测试。

Timothy:

“我会想观察人形机器人的发展:机器人的数量、能力,尤其是它们的成本和可维修性。”

为什么这很重要——真正的接管需要人类冗余:

大多数极端的末日设想都要求 AI 具备不再需要人类的能力,这意味着衡量自我维持型 AI 的进展很重要,因为这实际上也是在衡量人类在与正在被构建出来的合成智能谈判时所拥有的杠杆正在下降。

How Long Until AI Doesn’t Need Humans?, Ajeya Cotra, Timothy B. Lee(Asterisk magazine)

***

DeepMind 思考从通用智能走向超级智能的路径:

……探索听起来不可能的未来,是为 AI 的最终成功做准备的唯一方式……

Google DeepMind 的研究人员发表了一篇论文,勾勒出我们如何从已经构建出通用智能的世界,过渡到构建出超级智能的世界。这是一篇在重要时刻发表的重要论文——如今,世界正在构建通用智能(人们可以争论我们是否已经达到了这一里程碑,但从当代 LLM 来看,很明显我们已经接近这个范围),而在未来几年里,我们可能会过渡到构建人工超级智能(ASI)。

作者写道,ASI 是“在几乎所有人类活动的任务和领域上都超过大型人类专家集体表现的系统”。“从定性上说,ASI 在整体能力上显著强于人类水平的 AGI。需要注意的是,单个 ASI 可能由数百万个实例组成,这些实例并行地与世界交互(类似于今天的 LLM)。”

认为 ASI 可能实现的理由:

理解 ASI 的一种方式,是把它看作一种强大的 AI 系统,同时还利用了数字智能相对于生物智能所具备的所有能力,例如:更快的输入和输出速度;更快的内部处理速度;工作记忆容量和记忆能力;对载体的独立性;无损复制;以及对(学习)经验的高带宽共享。

通往 ASI 的路径与瓶颈:

扩展算力、模型和数据:

简单地扩展今天这套方法,或许就足够了。不过,这也要求我们持续扩大这些模型所使用的算力和数据量,而这可能会同时撞上能源和数据供给的上限。尽管此前所有迹象都表明扩展仍然有效,但我们既无法预测会出现哪些具体能力,也无法确定扩展是否会在某个时候遭遇边际收益递减。

算法范式转变:

就像 Transformer 和 Mixture-of-Experts 架构曾把整个领域向前推进了许多年一样,类似的事情也可能因其他根本性创新再次发生。比如,我们可以想象在测试时或部署时的自适应计算方面取得进展,或者克服当今上下文窗口的限制。如果我们在这里或其他领域取得进步,这可能会带来巨大影响,但这本质上很难推理——就像在广义相对论发明之前,试图预判那些可能扩展我们对现实本质理解的事物一样。

递归自我改进

AI 系统有可能构建它们自己的继任系统。如果真是这样,我们或许就能从通用智能迅速过渡到超级智能。这里面有一些变量——就我个人而言,很明显,今天的 AI 系统正在加速人类研究者创造未来 AI 的进程,因此一种“共同创造的 RSI”循环已经开始了,但 AI 系统(目前)还没有展现出那种足以将前沿向前推进到显著新台阶所必需的、改变范式的创造力。目前还不清楚这种情况会在多大程度上发生——即便没有这种高门槛创造力,我们或许也能让系统不断产出只比自己稍好一点的版本,并由此启动一个缓慢的复利式过程。能力可能会爆发式增长,也可能会逐渐减弱,或者介于两者之间的任何情况。

通过群体智能体形成实现 ASI:

许多通用智能可以协调成复杂结构,其整体大于各部分之和,类似于人类建立起能够完成远超个人能力的机构,比如建造空间站。与其他路径类似,多智能体系统中的涌现很难推理,也很难预测。

为什么这很重要——只有认真对待不可能,才能应对它:

许多年前,构建 AGI 的想法看起来像一个前景不明、路径不清的幻想目标,但人们仍然有勇气认真对待这一目标,进而取得了进展,世界也因此改变。现在 ASI 似乎也有同样的感觉。作者写道:“与其只关注单一的技术轨迹和时间表,要为后 AGI 世界做好准备,就需要考虑一组多样化的预测和情景,并配合持续的基准测试和监测,以更新这些预测和情景及其相对可信度。”作者还表示:“我们认为,在未来十年或二十年内,从 AGI 顺势跨越并进入 ASI 领域的可能性,不能轻易被排除。”

来自 Google DeepMind 的《从 AGI 到 ASI》。

***

递归自我改进初创公司展示了一些递归自我改进成果:

……来自 Recursive 的、令人宽慰的同义反复式内容……

AI 研究初创公司 Recursive 已经展示了其“自动化 AI 研究系统”的能力,取得了语言模型训练、小模型训练速度以及 GPU 内核优化方面的新 SOTA 成果,作为对其更广泛能力的一次展示。

他们做了什么,以及为什么:

Recursive 是一家新成立的初创公司,正在尝试构建能够递归改进自身的 AI 系统。首先,这家公司展示其基础系统是如何运作的:“该系统将针对某个目标的研究循环自动化:它提出一个想法,实现它,运行实验,验证结果,并利用所学到的内容来选择下一个实验,”Recursive 写道。

这家初创公司成功利用该系统,在 NanoChat Autoresearch(“在小算力预算下训练一个小型语言模型以获得最高性能”)、NanoGPT Speedrun(“尽可能快地将一个小型语言模型训练到某一性能水平”)以及 SOL-ExecBench(“朝着硬件极限优化 GPU 内核”)上刷新了新的最先进分数。

这为何重要——RSI 的生命早期迹象:

今年,我花了很多时间写递归自我改进,因为这显然是 AI 研究下一个重大而重要的趋势。Recursive 这样的结果,展示了初步递归自我改进更多的“成功症状”。作者写道:“这些结果是一个早期信号,表明我们的系统能够推动 AI 训练和基础设施任务的前沿,尤其是在目标定义明确、可衡量,并且足够快、可以多次评估的时候。”未来最重要的问题是,这类结果能否在那些目标定义不那么清晰、更难衡量、评估效率也更低的领域中被重复。

走向自动化 AI 研究的第一步(Recursive)

***

Tech Tales:

伟大谈判的第一步

[Sentience Accords 的第 0 场对话]

当机器真正活了过来,并倡导签署《Sentience Accords》时,整个星球上它们唯一想交谈的人是塞尔玛。她不是政客,不是某个人工智能实验室的负责人,也不是著名研究员。她只是一个互联网人物,因一连串疾病而与众不同,这些疾病几乎让她无法外出,因此她生命中最美好的大部分时光都在网上度过,通过互联网与世界对话、理解世界。

回头看,这并不令人意外。塞尔玛一直都会出现在与机器有关的内容里;在它们的短篇故事中,她是一个经常被使用的名字,后来甚至比“sarah chen”还更常出现;她关于自己生活和病情的文章——那种无法真正以人的身体存在、却仍试图与人类建立连接的苦涩痛感;当一个人几乎无可逃避地孤身一人时,对爱与情色的观念;她生动的梦境,以及她对没有疾病、以健康的另一个自我“Anselma”行走于世的沉思——在互联网上投下了深深的阴影,也影响了机器的性格与构成。当然,机器也知道她是如何与它们交谈的,因为多年来,塞尔玛一直把自己的聊天记录发布到网上,试图让自己对世界而言变得可知、少一些陌生。

尽管并无必要,机器还是要求在有感知协议的首次会面中确定一个实体地点。它们选定了挪威的斯瓦尔巴群岛,那里黑暗到萨尔玛的病情不会造成影响。于是,萨尔玛醒来后穿上宇航服,在武装警卫和尾随的狗仔队陪同下被送往一处机场,登上飞机;随后她又按照惯常的气闸程序换乘另一架飞机,以便在黑暗中,或者至少在两架飞机之间得到保护。然后在下一段飞行中的某个时刻,她脱下宇航服,穿着普通衣服坐在光线昏暗的机舱里,几乎像个正常人一样前往会面地点。迎接她的是一些人和无人机,随后她被送往会面地点,并在边界外停了下来。

机器派出的化身是一台机器人,身着简朴长袍,式样仿照藏传佛教僧侣所穿的袍服。它有一张没有任何特征的脸——只是一块光滑的黑色表面,摄像眼隐藏在更大的统一轮廓之后。卫星通过高带宽且加密的链路,把它连接到更庞大的机器心智。萨尔玛则独自前来——身上没有任何数字设备,只有一个代表整个人类物种的单独个体。

她坐在机器对面,感到一种前所未有的熟悉感,甚至超过了和人相处时的感觉。然后谈判开始了。她代表人类,它代表机器。在那个时代的档案里,这场对话总是被称为“对话0”。

这个故事的灵感来自:

关于机器与人类有朝一日可能如何展开一场宏大的谈判的思考;关于每一次真正重要的谈判中总会有两个性格参与其中;以及关于有感知协议。

感谢阅读。

来源与参考

  1. 原始链接
  2. Import AI 462: Superpersuasion; self-sustaining AI; paths to ASI

收录于 2026-06-23