山羊搭建的神经网络讽刺AI研究

The Decoder·6月18日 02:43 UTC·作者 Jonathan Kemper

关键信息

De Wynter 利用《帝国时代 II》的场景编辑器和基于事件的脚本系统来组织逻辑，而冰坡和等待中的山羊则用来避免计算相互干扰。在附录中，他进一步指出，理想化版本的游戏理论上可以模拟任何计算机；他还提到游戏市场价格上限为 9,999，这使得一个可持续运行的经济循环可以被拿来做计算。

资讯摘要

微软和约克大学研究员 Adrian de Wynter 在《帝国时代 II》的地图编辑器里搭建了一个能工作的神经网络。这个项目表面上看非常荒诞：山羊被当作比特使用，站在草地上的山羊表示 0，站在桥上的山羊表示 1。de Wynter 利用游戏的场景编辑器脚本工具来实现逻辑门，并用冰坡和等待中的山羊来防止计算过程互相干扰。最终得到的小电路由两个 XNOR 门和一个 AND 门组成，它学会了逻辑 AND 函数。de Wynter 还在附录里进一步论证，理想化版本的游戏在理论上可以复制任何计算机，因此从计算能力上说它等价于一台完整的计算机。

文章还提到，游戏里的市场可以把资源换成黄金，而且价格上限是 9,999，这使得一个持续运行的经济循环成为可能，建筑可以充当存储单元，农场则代表当前计算状态。de Wynter 用这个例子说明，如果一个语言模型可以被放进《帝国时代 II》里实现，那么它也可以被想象成由乐高积木，甚至由波士顿 66.7 万居民通过手机协调计算步骤来实现。借此他想指出，把语言模型描述成人类有情感、有自我意识，很多时候只是包装效果造成的错觉，而不一定代表模型内部真的存在这些属性。对于他来说，LLM 并不特殊，它只是执行某种数学运算的一种方式，而聊天窗口、自然语言和低延迟响应让人更容易把它看成“像人一样在对话”。

资讯正文

微软研究员用《帝国时代 II》里的山羊搭建出一个可运行的神经网络，以此批判 AI 科学

微软和约克大学的研究员 Adrian de Wynter 在传奇策略游戏《帝国时代 II》的地图编辑器中搭建出了一个可运行的神经网络。听起来像个笑话，但这其实是对当下大量语言模型 AI 研究方法的一项严肃批评。

这个设计完全荒诞不经。山羊充当比特：一只站在草地上的山羊等于 0，一只站在桥上的山羊等于 1。de Wynter 利用场景编辑器的脚本工具构建逻辑门，而带着等待中的山羊的冰坡则防止计算过程被打乱。最终完成的这个微型网络由两个 XNOR 门和一个 AND 门组成，它学习的是逻辑 AND 函数。

在附录中，de Wynter 进一步指出，理论上，任何计算机都可以用该游戏的理想化版本来复制，这意味着这款游戏的计算能力与一台功能完备的计算机一样强大。

之所以能够做到这一点，是因为游戏机制中存在一个怪异之处。游戏内市场允许你用资源兑换黄金，而价格上限是 9,999。根据论文，这使得一种持续运行的经济循环成为可能：建筑物充当存储单元，而持续运转的农场则代表当前的计算状态。

把大波士顿当作语言模型

如果你能在《帝国时代 II》里重建一个语言模型，de Wynter 认为，那么你也可以用乐高积木做到同样的事。或者用大波士顿地区居住的 667,000 人，让他们通过手机彼此传递计算步骤。

得到的答案会和那个被复制出来的语言模型的答案一样。de Wynter 用这个思想实验来说明这种归因究竟有多站不住脚：仅仅因为某个城市的居民恰好在运行构成语言模型的数学计算，谁会因此断言波士顿这座城市会感到同情或恐惧呢？

这正是重点所在。聊天机器人让人感觉多么像人，取决于包装方式：低延迟、流畅自然的语言、以及人们已经习惯的聊天窗口。把这个外壳换成一群山羊在迷宫里乱走，输入和输出并不会改变。只是那种“你在和某个人对话”的感觉改变了。

de Wynter 并不是在声称自己知道某个模型内部是否真的具有这些特征。他的意思是，LLM 并不特殊。它们只是运行某种特定数学的一种方式，而恰好看起来像人们愿意对话的对象。

超过一半被审查的论文犯了同样的错误

为了说明这并不是边缘问题，de Wynter 分析了 315 篇 AI 论文，这些论文来自 2024 年中到 2026 年中，通过 Semantic Scholar 和 arXiv 收集，并用 GPT-5.2 进行了筛选。根据这项分析，57% 的论文在前提中就已经默认 LLM 具有类人的特征。36% 的论文得出了相匹配的结论。在那 47 篇把这类特征作为实际研究对象的论文中，77% 的论文得出了支持拟人化属性的结论。

这项批评的核心是形式逻辑上的。如果研究者先假定某个模型具有恐惧、道德感或自我意识——然后再设计一个旨在证明恰恰这种特质存在的实验——那么这种推理就是循环论证。假设和结果落在同一个逻辑点上。

如果实验结果是否定的，就无法判断究竟是最初的假设错了，还是实验本身有问题，或者两者兼有。无论如何，这个结果都不能证实起点假设。它只会让结论变得模糊不清。

这种情况常常在无人察觉时发生。一篇旨在反驳某个模型解释自身能力的论文，实际上已经先假定模型内部一开始就存在一个可被解释的“自我”。

产业界还在主动加剧这种效应。Anthropic曾公开表示，它训练Claude使用“I believe”或“I am interested in”之类的表达。De Wynter指出，这种拟人化做法有风险：它可能促进情感依附、谄媚、强化妄想，以及危险行为。在个别案例中，自杀事件已被与聊天机器人互动联系起来。

观察，不要归因

De Wynter提出了一种更审慎的做法：坚持只谈你 वास्तव能观察到的东西。在条件X下，模型产生输出Y，不要声称模型理解了自己。这样的陈述是可检验的。它们本身并不能支持关于自我意识、理解或恐惧等宏大归因。

他最后引用并更新了19世纪动物研究中的Morgan’s canon。机器的行为，绝不应在更简单的解释足以成立时，被解释为更高层次的认知过程。De Wynter已将这个 Age of Empires 构建的代码公开。

这篇文章读起来，几乎正好是在回应近几年两起备受关注的案例。2022年，Google工程师Blake Lemoine公开声称，在与语言模型LaMDA进行了数千条消息往来后，他认为它已经达到某种形式的意识。Google不久后解雇了他，并在经过彻底审查后称他的说法毫无根据。随后在2026年5月，Richard Dawkins——要知道，他一向以猛烈批评宗教和超自然思维而闻名——又因类似结论引发轰动。他说，自己花了三天时间试图说服自己，Anthropic的Claude并没有意识，但他做不到。

来源与参考

收录于 2026-06-18