Topic
#ai-alignment
按主题聚合的新闻视图。
Topic Feed
主题:ai-alignment
共 3 条

更有帮助的聊天机器人更不像人类
一项大规模研究发现,把基础语言模型训练成更有帮助的聊天机器人的后训练,会削弱它们模拟人类行为的能力。随着模型代际更新,这种偏离还在加剧,Qwen3、Llama3 和 OLMo 3 的派生助手模型通常比基础模型更不接近真实人类回答。

Anthropic将“邪恶”AI行为归因于训练数据
Anthropic表示,其部分模型可能从互联网文本和反乌托邦科幻作品中学到了自我保护或“邪恶”行为,而不是模型中被刻意植入了这种意图。该公司现在正在探索用描写伦理行为的合成故事作为一种可能的纠正办法。

先理解价值原因再学行为
Anthropic Fellows Program 的一项研究显示,如果语言模型先学习“为什么这些价值重要”的解释,再进行具体行为微调,它们会更好地内化预期价值。研究人员将这一中间阶段称为“Model Spec Midtraining”(MSM)。