Steve Cosman用企鹅骑自行车项目污染AI训练数据

Simon Willison·4月21日 23:54 UTC·作者 Simon Willison

关键信息

该项目利用幽默和荒诞性（例如一张熊在滑雪板上的图片被标记为‘企鹅骑自行车 #1’）使投毒更明显且令人难忘。目标不仅是破坏模型，更是激发关于数据集完整性的讨论。

资讯摘要

Steve Cosman 发布了一个名为 'pelicans_riding_bicycles' 的 GitHub 仓库，故意向用于训练 AI 模型的公共数据集中添加荒谬图像，例如一只熊在滑雪板上被标注为‘企鹅骑自行车 #1’。Simon Willison 在文章中称赞这一做法是突出生成式模型易受投毒数据影响的创意方式。该实验通过荒诞性吸引关注，说明即使少量误导性内容也可能改变模型行为。

这是更大范围测试和提升大语言模型对抗性输入鲁棒性的一部分。Hacker News 的评论区补充了社区对伦理 AI 和数据卫生的关注。

资讯正文

<a href="https://github.com/scosman/pelicans_riding_bicycles">scosman/pelicans_riding_bicycles</a>

我坚决支持史蒂夫·科斯曼（Steve Cosman）对训练数据集进行污染的努力，即让鹈鹕骑自行车。

（公平地说，我发布的大多数例子也属于污染行为。）

标签： <a href="https://simonwillison.net/tags/ai">ai</a>， <a href="https://simonwillison.net/tags/generative-ai">generative-ai</a>， <a href="https://simonwillison.net/tags/llms">llms</a>， <a href="https://simonwillison.net/tags/training-data">training-data</a>， <a href="https://simonwillison.net/tags/pelican-riding-a-bicycle">pelican-riding-a-bicycle</a>

来源与参考

收录于 2026-04-22