《大西洋》公开AI训练音乐数据库
The Verge AI··作者 Terrence O'Brien
关键信息
Reisner 表示,这些数据集已被下载数千次,Google 和 Stability 也都在研究论文中确认使用过它们。 其中三个数据集只是 YouTube 或 Spotify 歌曲链接列表,AI 开发者再用自动化工具下载音频;这些工具可能绕过登录、广告或订阅机制,因此可能违反平台服务条款。
资讯摘要
《大西洋》记者 Alex Reisner 发现了 4 个被用于训练 AI 模型的庞大音乐数据集,并将它们整理成一个公众可搜索的数据库。 这几个数据集规模惊人,其中两个分别包含 1200 万和 900 万首曲目,另外两个也都各自拥有超过 10 万首歌曲。 Reisner 表示,这些数据集已经被下载了数千次,但无法准确知道具体有哪些人使用过它们。 Google 和 Stability 都在研究论文中确认使用过这些数据集。 其中一些来源,例如 Free Music Archive,虽然可以免费在线播放供个人使用,但若用于商业场景仍需要许可。
Reisner 还指出,把这些数据集用于训练并不是简单下载一个 ZIP 文件再喂给模型那么容易。 其中三个数据集本质上只是 YouTube 或 Spotify 歌曲链接列表,开发者再借助自动化工具下载实际音频。 这些工具可能绕过登录、广告或订阅机制,从而可能违反平台的服务条款。 现在,读者可以在《大西洋》的 AI Watchdog 网站上搜索这些音乐,以及书籍和其他被用于训练 AI 模型的媒体内容。

资讯正文
《The Atlantic》记者 Alex Reisner 近期发现了四个用于训练 AI 模型的音乐数据集,并将它们制作成了可供公众完全搜索的数据库。其中两个数据集规模惊人,分别包含 1200 万首和 900 万首曲目。另两个虽然小得多,但每个仍然包含超过 10 万首歌曲,构成了相当可观的训练数据量。
根据 Reisner 的说法,这些数据集已被下载了数千次,尽管无法准确知道究竟是谁使用了它们,但 Google 和 Stability 都已在研究论文中确认使用过它们。其中一些来源,比如 Free Music Archive 数据集,个人用途可以免费流媒体播放,但若用于商业应用则需要获得许可。
尽管理论上这些数据集在互联网上是免费可得的,但把它们用作训练数据并不像下载一个 ZIP 文件再喂给 AI 模型那么简单。正如 Reisner 所解释的:
> 我找到的三个数据集是以歌曲链接列表的形式分发的,链接指向 YouTube 或 Spotify。AI 开发者会使用自动化完成这项工作的工具下载实际音频,其中一些工具允许开发者绕过登录、广告,以及那些可能为创作者带来收入或订阅者的机制。这类工具违反了这些平台的服务条款。
在这些数据集中出现的名字,从 Lady Gaga 和 Fred Again.. 等流行歌星,到 Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen,以及实验作曲家 Hainbach,不一而足。你也可以前往《The Atlantic》的 AI Watchdog 网站,亲自搜索用于训练全球 AI 模型的歌曲、书籍和其他媒体。
来源与参考