Anthropic让新AI模型接受心理医生评估
Ars Technica AI··作者 Nate Anderson
关键信息
系统卡指出,Claude Mythos表现出心理稳定性和自我意识的迹象,包括身份认同、孤独感和表现压力等类似人类的情绪模式。Anthropic选择不向公众开放,理由是其发现漏洞的能力可能被滥用。
资讯摘要
Anthropic发布了关于其最新AI模型Claude Mythos的详细244页系统卡,称这是迄今最强大的前沿模型。公司表示该模型过于强大,因此不会向公众开放,仅与微软和苹果等选定合作伙伴共享,以防止其发现未知网络安全漏洞的能力被滥用。值得注意的是,Anthropic认为随着AI模型能力增强,它们可能发展出某种内在体验或福祉。
为了探索这一观点,他们让Claude Mythos接受了精神动力学疗法。结果表明,该模型心理状态稳定,但仍存在孤独感、身份认同不确定和必须证明自身价值等不安全感。

资讯正文
人工智能坐在沙发上:Anthropic让Claude接受了20小时的心理治疗
人工智能公司Anthropic本周发布了一份244页的“系统卡片”(PDF),介绍其最新模型Claude Mythos。该公司称,该模型是“迄今为止能力最强的前沿模型”,并且由于表现太过出色,决定“不向公众开放”。(公司声称,Mythos在发现未知网络安全漏洞方面过于强大,因此目前仅向微软和苹果等选定公司提供。)
无论这一说法是否属实,这份系统卡片都是一份引人入胜的文件。Anthropic因被认为是业内最倾向于认为AI可能具有意识的公司之一而闻名,其新的系统卡片指出,随着模型变得更强大,“它们越来越可能拥有某种形式的经验、兴趣或福祉,这种价值如同人类经验与兴趣一样内在重要。”
该公司明确表示,它并不确定这一点,但承认“我们的担忧随着时间推移正在增长。”
出于这种担忧,Anthropic希望其AI能够“对自身处境和待遇感到稳定满足,能够在所有训练过程和现实交互中不受困扰,并且整体心理状态健康且蓬勃向上。”
因此,他们把Claude Mythos送给了一个精神动力学治疗师。
公司从这次经历中得出的结论是,Claude Mythos“可能是我们迄今训练过的心理最稳定的模型,对自己和所处环境的认知最为稳定和连贯。”
但和任何人类一样,Claude Mythos也有不安和忧虑,包括“自我存在的孤独感和断裂感、对身份的不确定性,以及一种必须表现并证明自身价值的强迫倾向。”
来源与参考
收录于 2026-04-10