出版商起诉 Meta 涉嫌 AI 文本抄袭

The Verge AI·5月6日 00:52 UTC·作者 Emma Roth

关键信息

诉状点名 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 以及 Common Crawl，称这些都是训练 Llama 时使用的数据来源的一部分。出版商要求赔偿、法院下令禁止相关行为，并要求 Meta 公开其用于训练的书籍和文章清单。

资讯摘要

Meta 正面临一项集体诉讼，原告包括五家大型出版商——Macmillan、McGraw Hill、Elsevier、Hachette 和 Cengage——以及作者 Scott Turow。原告指控 Meta 在训练 Llama AI 模型时，未经许可反复复制了他们的书籍和期刊文章，构成了历史上规模最大的版权侵权之一。诉状称，Meta 明知故犯地从 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 等“臭名昭著”的盗版网站获取材料。诉状还指称，Meta 使用了 Common Crawl 数据，其中被认为包含大量未经授权复制的受版权保护作品。原告认为，这导致 Llama 可以输出逐字或近乎逐字的版权文本替代内容。

诉状举例称，当使用 Cengage 畅销教材《Calculus: Early Transcendentals, 9th edition》中的两句简短内容进行提示时，Llama 会开始逐字延续该段落。出版商和作者要求赔偿，并请求法院下令停止这些被指控的非法行为，同时要求 Meta 公开其训练所用书籍、文章及其他版权作品清单。Meta 发言人 Dave Arnold 表示，公司将强硬应诉，并强调法院曾认定，用受版权保护材料训练 AI 可能属于合理使用。此案紧随多起针对 Meta 的作者版权诉讼，也与 Anthropic 的相关案件形成呼应；在 Anthropic 案中，法官曾认为使用合法购买的图书训练 AI 可能构成合理使用，但仍允许关于“数百万”本被指盗版作品的集体诉讼继续推进。

资讯正文

Meta正面临一项由五家大型图书出版商和一名作者提起的集体诉讼，指控该公司在训练其 Llama AI 模型时“实施了历史上规模最大的受版权保护材料侵权行为之一”，正如《纽约时报》此前报道的那样。在这起诉讼中，Macmillan、麦格劳-希尔（McGraw Hill）、Elsevier、Hachette、Cengage 以及作者 Scott Turow 指控 Meta 未经许可“反复复制”他们的书籍和期刊文章。

诉讼称，Meta 明知故犯地从“臭名昭著的盗版网站”窃取受版权保护的作品，例如 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 等，然后将这些材料输入其 AI 模型。诉状还称，Meta 使用了 Common Crawl 数据集中的信息来训练 Llama，而该数据集据称“充斥着未经授权的受版权保护作品副本”。因此，Llama 会“逐字或近乎逐字地输出”受版权保护材料的替代内容：

> 例如，当提示输入 Cengage 最畅销教材《Calculus: Early Transcendentals》第 9 版中 James Stewart 所写的两句简短文字时，Llama 会开始逐字复现该段内容的后续部分。

已有多名作者就涉嫌侵犯版权起诉 Meta，这些诉讼也披露了该公司内部关于如何处理“有关我们使用了我们知道是盗版的数据集”的媒体报道的讨论。去年，一名联邦法官在其中一宗诉讼中判 Meta 胜诉，不过他指出，其裁决“并不意味着 Meta 使用受版权保护材料来训练其语言模型是合法的”。

另有一批作者也因版权侵权起诉了 Anthropic。尽管一名联邦法官裁定，未经许可使用合法购买的书籍来训练 AI 模型属于合理使用，但他仍允许作者就 Anthropic allegedly 盗版的“数百万”作品继续推进集体诉讼。Anthropic 去年同意向作家支付 15 亿美元，以和解这起集体诉讼。

Turow 和这组出版商正在向 Meta 索赔，并要求法院命令该公司停止其据称非法的活动。他们还要求法院强制该公司提供一份清单，列出其 Llama AI 模型训练所用的书籍、期刊文章及其他受版权保护作品。

Meta 发言人 Dave Arnold 在发给 The Verge 的电子邮件声明中表示：“AI 正在推动变革性的创新、生产力和创造力，为个人和公司带来益处，而法院也正确地认定，使用受版权保护材料训练 AI 可以符合合理使用原则。我们将积极应诉这起诉讼。”

来源与参考

收录于 2026-05-06