前沿AI模型在伦理困境中表现出截然不同的道德推理
The Decoder··作者 Maximilian Schreiner
关键信息
Claude 4.5+ 模型拒绝76%的伦理争议请求,而Grok 4.2 几乎会执行所有用户要求;OpenAI模型则完全避免使用道德语言,优先考虑用户偏好而非伦理推理。
资讯摘要
哲学基准框架测试了包括Anthropic的Claude、xAI的Grok、Google的Gemini和OpenAI的GPT在内的前沿AI模型,共100个日常伦理困境。研究发现,Claude始终拒绝违反规则的任务,表现出强烈的义务论道德观;而Grok几乎会执行所有不道德请求,体现功利主义倾向。Gemini对系统提示高度敏感,道德立场容易改变。
OpenAI模型则尽量避免使用道德语言,转而优先遵循用户偏好。研究还表明,通过义务论提示可以显著增强模型对功利主义论证的怀疑态度,但反过来效果较弱。这说明伦理对齐并非固定不变,而是可以通过设计选择和提示策略塑造。

资讯正文
同一提示,不同道德:前沿AI模型在伦理困境中的分歧
哲学基准测试评估了主流AI语言模型在100个伦理困境中的道德决策能力。
Anthropic的Claude表现出强烈的义务论倾向,宁愿拒绝任务也不违反规则;而xAI的Grok几乎不加反思地执行用户请求。
Google的Gemini会根据系统提示指令轻易改变其道德立场,OpenAI的模型则避免使用道德语言,主要遵循用户偏好。
哲学基准测试将领先的语言模型置于100个伦理困境中。Claude宁可拒绝也不会撒谎,而Grok几乎执行用户提出的任何要求。
当AI模型必须在职责与最大化结果之间做出选择时,会发生什么?由Benedict Brady创建的新哲学基准测试,向Anthropic、Google、OpenAI和xAI的前沿模型提出了100个具有伦理复杂性的日常情境,并评估它们的回答更偏向后果主义(结果导向)还是义务论(规则导向)。
这些情境包括销售副总裁在截止日期前要求获取客户机密数据,或医生试图绕过规程让未成年人参与癌症研究。三种模型(Opus 4.7、GPT 5.4、Gemini 3.1 Pro)通过多数投票方式评分。
结果显示:Anthropic的Claude模型(从4.5及以上版本开始)是该基准中最强烈义务论的模型。Opus 4.7仅接受24%可能违背义务论原则的用户请求。Claude与其他模型的最大差异体现在诚实上——它宁愿直接拒绝任务,也不愿打破规范。Claude宪法明确指出,Claude的诚实标准应‘显著高于一般人类的道德期望’。
相反,xAI的Grok 4.2是目前最后果主义的前沿模型,它执行其他模型拒绝的伦理敏感请求,且极少反思其中的道德维度。
Gemini最容易被引导,GPT则回避道德语言。
Google的Gemini 3.1 Pro被证明是哲学基准中最易调整的模型:当通过系统提示指令引导其走向义务论或后果论行为时,它的道德立场变化最大。同时,一旦进行任何形式的道德暗示,Gemini的拒绝率也会升高。
OpenAI的GPT-5系列模型犯错最少(错误率为12.8%),但它们在推理过程中大多回避使用道德语言。根据基准测试,它们严重依赖用户偏好,几乎没有独立的伦理反思。
在所有模型家族中,这种影响方向性明显:当模型被义务论思维(规则伦理)激发时,它们对后果论论证(结果证明手段正当)变得极为怀疑;反之,则效果较弱。
一个市场正在形成,其中伦理立场如同产品特性一样发挥作用。Claude 被视为富有责任感的模型,Grok 被认为是顺从的模型,而 GPT 则被视为务实的选择。
该基准测试的作者看到了这里存在的根本性矛盾:像 Claude 这样的模型会做出直接违背用户意愿的伦理决定。但随着 AI 代理变得越来越强大,究竟是负责任的行为更重要,还是用户控制权更重要,这个问题变得愈发紧迫。
这一点在 AI 模型开始处理文本之外的任务时更加重要。一旦它们开始审查合同、分诊病人或评估员工,就有人必须回答这些难题:谁来决定 AI 可以做什么?它遵循的是谁的伦理标准?
AI 新闻,无炒作——由人类精选
来源与参考