微软MAI训练数据说法受质疑

The Decoder·6月5日 20:10 UTC·作者 Matthias Bastian

关键信息

文章称，微软把其网页数据描述为“公开可用和已授权人工生成数据的混合”，并表示其爬虫会遵守 robots.txt 及相关控制规则。但遵守 robots.txt 本身并不等于数据已获许可，而网页抓取训练数据在合理使用框架下的法律地位仍存在争议。

资讯摘要

微软正因其 MAI 模型被曝部分使用了未经授权的网页数据而受到质疑。The Decoder 称，这些模型的技术论文显示微软使用了 Common Crawl 等数据源，这一点尤其值得注意，因为微软此前曾把这些模型宣传为仅使用“企业级、干净且商业许可的数据”。报道认为，这暴露了公司营销说法与实际训练集组成之间的不一致。微软在论文中把数据更宽泛地描述为“公开可用和已授权人工生成数据的混合”。

对于网页数据收集，微软表示自己使用了一个专有爬虫，会遵守 Robots Exclusion Protocol，包括 robots.txt 以及相关的元标签和 HTML 控制。文章指出，这种做法实际上把内容保护的责任更多地放在网站所有者身上，而关于抓取网页数据进行训练是否属于合理使用的法律问题，法院仍在裁定之中。因此，这件事更多是关于透明度、授权和 AI 训练数据法律灰区，而不是一项新的技术突破。报道的核心观点是，微软的做法与其他 AI 公司并无本质不同，但其对数据“更干净”的宣传并不符合实际。

资讯正文

微软在承诺提供“企业级、干净且商业授权的数据”之际，实际上却用未经授权的网络数据训练了其 MAI 模型

微软部分使用未经授权的网络数据训练了其新的 MAI 模型。正如 Simon Willison 所指出的，技术论文显示微软使用了 Common Crawl 以及其他来源。微软此前曾声称，这些 MAI 模型只使用“企业级、干净且商业授权的数据”进行训练。

与其他抓取网络数据的人工智能公司一样，微软很可能依赖合理使用（fair use）。论文将这些数据描述为“公开可用数据与授权的人类生成数据的混合”。对于网络数据，微软表示，它使用“一个专有爬虫，遵守 Robots Exclusion Protocol（robots.txt）以及相关的 meta 标签和 HTML 控制，从而使网站所有者能够管理其网站内容的访问和使用方式”。

这等于把保护内容的责任推给网站所有者，就像假设任何没锁门的人都同意被闯入一样。合理使用仍存在争议，法院也仍在厘清这一问题。简而言之，微软所做的和其他所有人工智能公司一样，却把自己的训练数据包装得格外“干净”。事实并非如此。

来源与参考

收录于 2026-06-06