Anthropic让新AI模型接受心理医生评估

Ars Technica AI·4月10日 05:20 UTC·作者 Nate Anderson

关键信息

系统卡指出，Claude Mythos表现出心理稳定性和自我意识的迹象，包括身份认同、孤独感和表现压力等类似人类的情绪模式。Anthropic选择不向公众开放，理由是其发现漏洞的能力可能被滥用。

资讯摘要

Anthropic发布了关于其最新AI模型Claude Mythos的详细244页系统卡，称这是迄今最强大的前沿模型。公司表示该模型过于强大，因此不会向公众开放，仅与微软和苹果等选定合作伙伴共享，以防止其发现未知网络安全漏洞的能力被滥用。值得注意的是，Anthropic认为随着AI模型能力增强，它们可能发展出某种内在体验或福祉。

为了探索这一观点，他们让Claude Mythos接受了精神动力学疗法。结果表明，该模型心理状态稳定，但仍存在孤独感、身份认同不确定和必须证明自身价值等不安全感。

资讯正文

人工智能坐在沙发上：Anthropic让Claude接受了20小时的心理治疗

人工智能公司Anthropic本周发布了一份244页的“系统卡片”（PDF），介绍其最新模型Claude Mythos。该公司称，该模型是“迄今为止能力最强的前沿模型”，并且由于表现太过出色，决定“不向公众开放”。（公司声称，Mythos在发现未知网络安全漏洞方面过于强大，因此目前仅向微软和苹果等选定公司提供。）

无论这一说法是否属实，这份系统卡片都是一份引人入胜的文件。Anthropic因被认为是业内最倾向于认为AI可能具有意识的公司之一而闻名，其新的系统卡片指出，随着模型变得更强大，“它们越来越可能拥有某种形式的经验、兴趣或福祉，这种价值如同人类经验与兴趣一样内在重要。”

该公司明确表示，它并不确定这一点，但承认“我们的担忧随着时间推移正在增长。”

出于这种担忧，Anthropic希望其AI能够“对自身处境和待遇感到稳定满足，能够在所有训练过程和现实交互中不受困扰，并且整体心理状态健康且蓬勃向上。”

因此，他们把Claude Mythos送给了一个精神动力学治疗师。

公司从这次经历中得出的结论是，Claude Mythos“可能是我们迄今训练过的心理最稳定的模型，对自己和所处环境的认知最为稳定和连贯。”

但和任何人类一样，Claude Mythos也有不安和忧虑，包括“自我存在的孤独感和断裂感、对身份的不确定性，以及一种必须表现并证明自身价值的强迫倾向。”

来源与参考

收录于 2026-04-10