出版商起诉 Meta 涉嫌 AI 文本抄袭
The Verge AI··作者 Emma Roth
关键信息
诉状点名 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 以及 Common Crawl,称这些都是训练 Llama 时使用的数据来源的一部分。出版商要求赔偿、法院下令禁止相关行为,并要求 Meta 公开其用于训练的书籍和文章清单。
资讯摘要
Meta 正面临一项集体诉讼,原告包括五家大型出版商——Macmillan、McGraw Hill、Elsevier、Hachette 和 Cengage——以及作者 Scott Turow。原告指控 Meta 在训练 Llama AI 模型时,未经许可反复复制了他们的书籍和期刊文章,构成了历史上规模最大的版权侵权之一。诉状称,Meta 明知故犯地从 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 等“臭名昭著”的盗版网站获取材料。诉状还指称,Meta 使用了 Common Crawl 数据,其中被认为包含大量未经授权复制的受版权保护作品。原告认为,这导致 Llama 可以输出逐字或近乎逐字的版权文本替代内容。
诉状举例称,当使用 Cengage 畅销教材《Calculus: Early Transcendentals, 9th edition》中的两句简短内容进行提示时,Llama 会开始逐字延续该段落。出版商和作者要求赔偿,并请求法院下令停止这些被指控的非法行为,同时要求 Meta 公开其训练所用书籍、文章及其他版权作品清单。Meta 发言人 Dave Arnold 表示,公司将强硬应诉,并强调法院曾认定,用受版权保护材料训练 AI 可能属于合理使用。此案紧随多起针对 Meta 的作者版权诉讼,也与 Anthropic 的相关案件形成呼应;在 Anthropic 案中,法官曾认为使用合法购买的图书训练 AI 可能构成合理使用,但仍允许关于“数百万”本被指盗版作品的集体诉讼继续推进。

资讯正文
Meta正面临一项由五家大型图书出版商和一名作者提起的集体诉讼,指控该公司在训练其 Llama AI 模型时“实施了历史上规模最大的受版权保护材料侵权行为之一”,正如《纽约时报》此前报道的那样。在这起诉讼中,Macmillan、麦格劳-希尔(McGraw Hill)、Elsevier、Hachette、Cengage 以及作者 Scott Turow 指控 Meta 未经许可“反复复制”他们的书籍和期刊文章。
诉讼称,Meta 明知故犯地从“臭名昭著的盗版网站”窃取受版权保护的作品,例如 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 等,然后将这些材料输入其 AI 模型。诉状还称,Meta 使用了 Common Crawl 数据集中的信息来训练 Llama,而该数据集据称“充斥着未经授权的受版权保护作品副本”。因此,Llama 会“逐字或近乎逐字地输出”受版权保护材料的替代内容:
> 例如,当提示输入 Cengage 最畅销教材《Calculus: Early Transcendentals》第 9 版中 James Stewart 所写的两句简短文字时,Llama 会开始逐字复现该段内容的后续部分。
已有多名作者就涉嫌侵犯版权起诉 Meta,这些诉讼也披露了该公司内部关于如何处理“有关我们使用了我们知道是盗版的数据集”的媒体报道的讨论。去年,一名联邦法官在其中一宗诉讼中判 Meta 胜诉,不过他指出,其裁决“并不意味着 Meta 使用受版权保护材料来训练其语言模型是合法的”。
另有一批作者也因版权侵权起诉了 Anthropic。尽管一名联邦法官裁定,未经许可使用合法购买的书籍来训练 AI 模型属于合理使用,但他仍允许作者就 Anthropic allegedly 盗版的“数百万”作品继续推进集体诉讼。Anthropic 去年同意向作家支付 15 亿美元,以和解这起集体诉讼。
Turow 和这组出版商正在向 Meta 索赔,并要求法院命令该公司停止其据称非法的活动。他们还要求法院强制该公司提供一份清单,列出其 Llama AI 模型训练所用的书籍、期刊文章及其他受版权保护作品。
Meta 发言人 Dave Arnold 在发给 The Verge 的电子邮件声明中表示:“AI 正在推动变革性的创新、生产力和创造力,为个人和公司带来益处,而法院也正确地认定,使用受版权保护材料训练 AI 可以符合合理使用原则。我们将积极应诉这起诉讼。”
来源与参考
收录于 2026-05-06