山羊搭建的神经网络讽刺AI研究
The Decoder··作者 Jonathan Kemper
关键信息
De Wynter 利用《帝国时代 II》的场景编辑器和基于事件的脚本系统来组织逻辑,而冰坡和等待中的山羊则用来避免计算相互干扰。在附录中,他进一步指出,理想化版本的游戏理论上可以模拟任何计算机;他还提到游戏市场价格上限为 9,999,这使得一个可持续运行的经济循环可以被拿来做计算。
资讯摘要
微软和约克大学研究员 Adrian de Wynter 在《帝国时代 II》的地图编辑器里搭建了一个能工作的神经网络。这个项目表面上看非常荒诞:山羊被当作比特使用,站在草地上的山羊表示 0,站在桥上的山羊表示 1。de Wynter 利用游戏的场景编辑器脚本工具来实现逻辑门,并用冰坡和等待中的山羊来防止计算过程互相干扰。最终得到的小电路由两个 XNOR 门和一个 AND 门组成,它学会了逻辑 AND 函数。de Wynter 还在附录里进一步论证,理想化版本的游戏在理论上可以复制任何计算机,因此从计算能力上说它等价于一台完整的计算机。
文章还提到,游戏里的市场可以把资源换成黄金,而且价格上限是 9,999,这使得一个持续运行的经济循环成为可能,建筑可以充当存储单元,农场则代表当前计算状态。de Wynter 用这个例子说明,如果一个语言模型可以被放进《帝国时代 II》里实现,那么它也可以被想象成由乐高积木,甚至由波士顿 66.7 万居民通过手机协调计算步骤来实现。借此他想指出,把语言模型描述成人类有情感、有自我意识,很多时候只是包装效果造成的错觉,而不一定代表模型内部真的存在这些属性。对于他来说,LLM 并不特殊,它只是执行某种数学运算的一种方式,而聊天窗口、自然语言和低延迟响应让人更容易把它看成“像人一样在对话”。

资讯正文
微软研究员用《帝国时代 II》里的山羊搭建出一个可运行的神经网络,以此批判 AI 科学
微软和约克大学的研究员 Adrian de Wynter 在传奇策略游戏《帝国时代 II》的地图编辑器中搭建出了一个可运行的神经网络。听起来像个笑话,但这其实是对当下大量语言模型 AI 研究方法的一项严肃批评。
这个设计完全荒诞不经。山羊充当比特:一只站在草地上的山羊等于 0,一只站在桥上的山羊等于 1。de Wynter 利用场景编辑器的脚本工具构建逻辑门,而带着等待中的山羊的冰坡则防止计算过程被打乱。最终完成的这个微型网络由两个 XNOR 门和一个 AND 门组成,它学习的是逻辑 AND 函数。
在附录中,de Wynter 进一步指出,理论上,任何计算机都可以用该游戏的理想化版本来复制,这意味着这款游戏的计算能力与一台功能完备的计算机一样强大。
之所以能够做到这一点,是因为游戏机制中存在一个怪异之处。游戏内市场允许你用资源兑换黄金,而价格上限是 9,999。根据论文,这使得一种持续运行的经济循环成为可能:建筑物充当存储单元,而持续运转的农场则代表当前的计算状态。
把大波士顿当作语言模型
如果你能在《帝国时代 II》里重建一个语言模型,de Wynter 认为,那么你也可以用乐高积木做到同样的事。或者用大波士顿地区居住的 667,000 人,让他们通过手机彼此传递计算步骤。
得到的答案会和那个被复制出来的语言模型的答案一样。de Wynter 用这个思想实验来说明这种归因究竟有多站不住脚:仅仅因为某个城市的居民恰好在运行构成语言模型的数学计算,谁会因此断言波士顿这座城市会感到同情或恐惧呢?
这正是重点所在。聊天机器人让人感觉多么像人,取决于包装方式:低延迟、流畅自然的语言、以及人们已经习惯的聊天窗口。把这个外壳换成一群山羊在迷宫里乱走,输入和输出并不会改变。只是那种“你在和某个人对话”的感觉改变了。
de Wynter 并不是在声称自己知道某个模型内部是否真的具有这些特征。他的意思是,LLM 并不特殊。它们只是运行某种特定数学的一种方式,而恰好看起来像人们愿意对话的对象。
超过一半被审查的论文犯了同样的错误
为了说明这并不是边缘问题,de Wynter 分析了 315 篇 AI 论文,这些论文来自 2024 年中到 2026 年中,通过 Semantic Scholar 和 arXiv 收集,并用 GPT-5.2 进行了筛选。根据这项分析,57% 的论文在前提中就已经默认 LLM 具有类人的特征。36% 的论文得出了相匹配的结论。在那 47 篇把这类特征作为实际研究对象的论文中,77% 的论文得出了支持拟人化属性的结论。
这项批评的核心是形式逻辑上的。如果研究者先假定某个模型具有恐惧、道德感或自我意识——然后再设计一个旨在证明恰恰这种特质存在的实验——那么这种推理就是循环论证。假设和结果落在同一个逻辑点上。
如果实验结果是否定的,就无法判断究竟是最初的假设错了,还是实验本身有问题,或者两者兼有。无论如何,这个结果都不能证实起点假设。它只会让结论变得模糊不清。
这种情况常常在无人察觉时发生。一篇旨在反驳某个模型解释自身能力的论文,实际上已经先假定模型内部一开始就存在一个可被解释的“自我”。
产业界还在主动加剧这种效应。Anthropic曾公开表示,它训练Claude使用“I believe”或“I am interested in”之类的表达。De Wynter指出,这种拟人化做法有风险:它可能促进情感依附、谄媚、强化妄想,以及危险行为。在个别案例中,自杀事件已被与聊天机器人互动联系起来。
观察,不要归因
De Wynter提出了一种更审慎的做法:坚持只谈你 वास्तव能观察到的东西。在条件X下,模型产生输出Y,不要声称模型理解了自己。这样的陈述是可检验的。它们本身并不能支持关于自我意识、理解或恐惧等宏大归因。
他最后引用并更新了19世纪动物研究中的Morgan’s canon。机器的行为,绝不应在更简单的解释足以成立时,被解释为更高层次的认知过程。De Wynter已将这个 Age of Empires 构建的代码公开。
这篇文章读起来,几乎正好是在回应近几年两起备受关注的案例。2022年,Google工程师Blake Lemoine公开声称,在与语言模型LaMDA进行了数千条消息往来后,他认为它已经达到某种形式的意识。Google不久后解雇了他,并在经过彻底审查后称他的说法毫无根据。随后在2026年5月,Richard Dawkins——要知道,他一向以猛烈批评宗教和超自然思维而闻名——又因类似结论引发轰动。他说,自己花了三天时间试图说服自己,Anthropic的Claude并没有意识,但他做不到。
来源与参考
收录于 2026-06-18