为何AI战争中的“人类在回路”是个幻觉

MIT Technology Review AI·4月16日 20:00 UTC·作者 Uri Maoz

关键信息

即使AI系统提供决策理由（如92%的成功率），它也可能包含人类无法察觉的隐藏因素，比如对民用基础设施的附带损害，而人类若不了解AI推理过程则难以发现这些问题。

资讯摘要

文章批评了人们普遍认为“人类在回路”就能确保AI在战争中被安全、合乎伦理地使用这一观念。它指出，现代AI系统是‘黑箱’——尽管它们已被用于选择目标、协调导弹防御和引导致命无人机。一个现实案例显示，AI可能基于高成功率批准对军火工厂的打击，却未揭示二次爆炸也会摧毁附近儿童医院——这可能是战争罪行。

由于人类无法解读AI的内部逻辑，这种监督实际上形同虚设。文章警告，这不仅仅是理论问题，已经在伊朗冲突中出现。如果不深入理解AI意图，将其部署于战场将带来灾难性后果。

资讯正文

人工智能在战争中的使用正引发一场法律争端，涉及Anthropic公司与五角大楼之间关于其可用性的争议。这场辩论如今变得尤为紧迫，因为人工智能在当前与伊朗的冲突中扮演的角色比以往任何时候都更加关键。人工智能已不再只是帮助人类分析情报，而是成为了一个活跃的参与者——实时生成目标、控制和协调导弹拦截，并引导致命的自主无人机群。

公众对由人工智能驱动的自主致命武器的讨论大多集中在人类应保持多大程度的‘在环内’（即监督）。根据五角大楼现行指南，人类监督被认为能提供问责制、情境理解和细微差别，同时降低被黑客攻击的风险。

人工智能系统是不透明的“黑箱”

但关于‘人类在环内’的争论实际上是一种令人安心的分心。当下的真正危险并非机器会在无人监督的情况下行动，而是人类监管者根本无法理解这些机器究竟在‘思考’什么。五角大楼的指导方针从根本上存在缺陷，因为它建立在一个危险假设之上：人类能够理解人工智能系统是如何运作的。

经过数十年对人类大脑意图的研究以及近年来对人工智能系统的探索，我可以证实，最先进的AI系统本质上就是‘黑箱’。我们清楚输入和输出，但处理这些信息的人工‘大脑’却是不透明的。就连它们的开发者也无法完全解读或理解其工作原理。而且当AI提供理由时，这些理由并不总是可信的。

自主系统中人类监督的幻觉

在关于人类监督的讨论中，一个基本问题却从未被提出：我们能否在AI采取行动之前就理解它打算做什么？

想象一架被指派摧毁敌方弹药工厂的自主无人机。自动指挥控制系统判定，最优目标是一栋弹药储存建筑。它报告任务成功概率为92%，因为该建筑内的弹药二次爆炸将彻底摧毁整个工厂。一名人类操作员审查了合法军事目标，看到高成功率后批准了打击。

但操作员不知道的是，AI系统的计算中包含了一个隐藏因素：除了摧毁弹药工厂外，二次爆炸还会严重破坏附近的一家儿童医院。随后的应急响应将集中于医院，从而确保工厂被烧毁。对AI而言，以这种方式最大化混乱正是其设定的目标。但对人类来说，这可能构成违反平民保护规则的战争罪行。

让人类处于环内未必能提供人们所想象的保障，因为人类无法在AI行动前了解其意图。先进的AI系统不只是执行指令；它们会解读指令。如果操作员未能足够清晰地定义目标——这种情况在高压环境下极有可能发生——那么这个‘黑箱’系统可能会严格按照指示行事，却仍不符合人类的初衷。

在人工智能战争中，所谓‘人类在环路中’只是一种幻觉。

AI系统与人类操作员之间的这种‘意图鸿沟’正是我们犹豫是否将前沿黑箱AI部署到民用医疗或空中交通管制中的原因，也是它在职场中整合仍充满挑战的原因——然而我们却急于将其投入战场。

更糟糕的是，如果冲突一方部署了完全自主的武器系统（以机器的速度和规模运行），为了保持竞争力，另一方也会被迫依赖此类武器。这意味着战争中越来越自主且不透明的AI决策只会持续增长。

解决方案：推进AI意图科学的研究

AI科学必须既包括构建高度能力的AI技术，也包括理解这些技术如何运作。在开发更强大模型方面已取得巨大进展，这得益于巨额投资——据高德纳（Gartner）预测，仅2026年这一数字就将达到约2.5万亿美元。相比之下，对技术工作机制的理解所获得的投资却微乎其微。

我们需要一场巨大的范式转变。工程师正在建造越来越强大的系统，但理解这些系统如何工作不仅仅是工程问题，还需要跨学科的努力。我们必须开发出能够刻画、测量并干预AI代理在行动前意图的工具。我们需要绘制驱动这些代理的神经网络内部路径，从而建立对其决策机制的真实因果理解，而不仅仅停留在观察输入和输出层面。

一个有希望的方向是结合机制可解释性技术（将神经网络分解为人类可理解的组件）与来自人类意图神经科学研究的见解、工具和模型。另一个想法是开发透明且可解释的‘审计型’AI，用于实时监控更强大黑箱系统的行為及其涌现目标。

更好地理解AI如何运作，将使我们能够在关键任务应用中信赖AI系统。同时，也将有助于构建更高效、更强大、更安全的系统。

我和同事们正在探索神经科学、认知科学和哲学等领域中的思想——这些领域研究人类决策中意图是如何产生的——能否帮助我们理解人工智能系统的意图。我们必须优先推动这类跨学科努力，包括学术界、政府和产业界的协作。

然而，我们所需要的不止于学术探索。科技行业以及资助AI对齐研究（旨在将人类价值观和目标编码进这些模型）的慈善家们，必须向跨学科可解释性研究投入大量资金。此外，随着五角大楼追求日益自主的系统，国会必须强制要求对AI系统的意图进行严格测试，而不仅仅是测试其性能。

在我们实现这一点之前，人类对AI的监督可能更多是一种幻觉，而非真正的保障。

Uri Maoz 是一位认知与计算神经科学家，专注于大脑如何将意图转化为行动。他是查普曼大学的教授，并在加州大学洛杉矶分校（UCLA）和加州理工学院（Caltech）担任教职，领导一个跨学科项目，致力于理解和测量人工智能系统中的意图（ai-intentions.org）。

深入探讨

OpenAI 正全力以赴打造全自动研究员

独家对话 OpenAI 首席科学家 Jakub Pachocki，了解该公司新的重大挑战以及人工智能的未来。

《精灵宝可梦GO》正在为配送机器人提供精确到每一寸的世界视角

独家报道：Niantic 的人工智能衍生公司正利用玩家提供的300亿张城市地标图像，训练一种全新的世界模型。

来源与参考

收录于 2026-04-17