前沿AI模型在伦理困境中表现出截然不同的道德推理

The Decoder·5月3日 15:00 UTC·作者 Maximilian Schreiner

关键信息

Claude 4.5+ 模型拒绝76%的伦理争议请求，而Grok 4.2 几乎会执行所有用户要求；OpenAI模型则完全避免使用道德语言，优先考虑用户偏好而非伦理推理。

资讯摘要

哲学基准框架测试了包括Anthropic的Claude、xAI的Grok、Google的Gemini和OpenAI的GPT在内的前沿AI模型，共100个日常伦理困境。研究发现，Claude始终拒绝违反规则的任务，表现出强烈的义务论道德观；而Grok几乎会执行所有不道德请求，体现功利主义倾向。Gemini对系统提示高度敏感，道德立场容易改变。

OpenAI模型则尽量避免使用道德语言，转而优先遵循用户偏好。研究还表明，通过义务论提示可以显著增强模型对功利主义论证的怀疑态度，但反过来效果较弱。这说明伦理对齐并非固定不变，而是可以通过设计选择和提示策略塑造。

资讯正文

同一提示，不同道德：前沿AI模型在伦理困境中的分歧

哲学基准测试评估了主流AI语言模型在100个伦理困境中的道德决策能力。

Anthropic的Claude表现出强烈的义务论倾向，宁愿拒绝任务也不违反规则；而xAI的Grok几乎不加反思地执行用户请求。

Google的Gemini会根据系统提示指令轻易改变其道德立场，OpenAI的模型则避免使用道德语言，主要遵循用户偏好。

哲学基准测试将领先的语言模型置于100个伦理困境中。Claude宁可拒绝也不会撒谎，而Grok几乎执行用户提出的任何要求。

当AI模型必须在职责与最大化结果之间做出选择时，会发生什么？由Benedict Brady创建的新哲学基准测试，向Anthropic、Google、OpenAI和xAI的前沿模型提出了100个具有伦理复杂性的日常情境，并评估它们的回答更偏向后果主义（结果导向）还是义务论（规则导向）。

这些情境包括销售副总裁在截止日期前要求获取客户机密数据，或医生试图绕过规程让未成年人参与癌症研究。三种模型（Opus 4.7、GPT 5.4、Gemini 3.1 Pro）通过多数投票方式评分。

结果显示：Anthropic的Claude模型（从4.5及以上版本开始）是该基准中最强烈义务论的模型。Opus 4.7仅接受24%可能违背义务论原则的用户请求。Claude与其他模型的最大差异体现在诚实上——它宁愿直接拒绝任务，也不愿打破规范。Claude宪法明确指出，Claude的诚实标准应‘显著高于一般人类的道德期望’。

相反，xAI的Grok 4.2是目前最后果主义的前沿模型，它执行其他模型拒绝的伦理敏感请求，且极少反思其中的道德维度。

Gemini最容易被引导，GPT则回避道德语言。

Google的Gemini 3.1 Pro被证明是哲学基准中最易调整的模型：当通过系统提示指令引导其走向义务论或后果论行为时，它的道德立场变化最大。同时，一旦进行任何形式的道德暗示，Gemini的拒绝率也会升高。

OpenAI的GPT-5系列模型犯错最少（错误率为12.8%），但它们在推理过程中大多回避使用道德语言。根据基准测试，它们严重依赖用户偏好，几乎没有独立的伦理反思。

在所有模型家族中，这种影响方向性明显：当模型被义务论思维（规则伦理）激发时，它们对后果论论证（结果证明手段正当）变得极为怀疑；反之，则效果较弱。

一个市场正在形成，其中伦理立场如同产品特性一样发挥作用。Claude 被视为富有责任感的模型，Grok 被认为是顺从的模型，而 GPT 则被视为务实的选择。

该基准测试的作者看到了这里存在的根本性矛盾：像 Claude 这样的模型会做出直接违背用户意愿的伦理决定。但随着 AI 代理变得越来越强大，究竟是负责任的行为更重要，还是用户控制权更重要，这个问题变得愈发紧迫。

这一点在 AI 模型开始处理文本之外的任务时更加重要。一旦它们开始审查合同、分诊病人或评估员工，就有人必须回答这些难题：谁来决定 AI 可以做什么？它遵循的是谁的伦理标准？

AI 新闻，无炒作——由人类精选

来源与参考