微软MAI训练数据说法受质疑
The Decoder··作者 Matthias Bastian
关键信息
文章称,微软把其网页数据描述为“公开可用和已授权人工生成数据的混合”,并表示其爬虫会遵守 robots.txt 及相关控制规则。但遵守 robots.txt 本身并不等于数据已获许可,而网页抓取训练数据在合理使用框架下的法律地位仍存在争议。
资讯摘要
微软正因其 MAI 模型被曝部分使用了未经授权的网页数据而受到质疑。The Decoder 称,这些模型的技术论文显示微软使用了 Common Crawl 等数据源,这一点尤其值得注意,因为微软此前曾把这些模型宣传为仅使用“企业级、干净且商业许可的数据”。报道认为,这暴露了公司营销说法与实际训练集组成之间的不一致。微软在论文中把数据更宽泛地描述为“公开可用和已授权人工生成数据的混合”。
对于网页数据收集,微软表示自己使用了一个专有爬虫,会遵守 Robots Exclusion Protocol,包括 robots.txt 以及相关的元标签和 HTML 控制。文章指出,这种做法实际上把内容保护的责任更多地放在网站所有者身上,而关于抓取网页数据进行训练是否属于合理使用的法律问题,法院仍在裁定之中。因此,这件事更多是关于透明度、授权和 AI 训练数据法律灰区,而不是一项新的技术突破。报道的核心观点是,微软的做法与其他 AI 公司并无本质不同,但其对数据“更干净”的宣传并不符合实际。

资讯正文
微软在承诺提供“企业级、干净且商业授权的数据”之际,实际上却用未经授权的网络数据训练了其 MAI 模型
微软部分使用未经授权的网络数据训练了其新的 MAI 模型。正如 Simon Willison 所指出的,技术论文显示微软使用了 Common Crawl 以及其他来源。微软此前曾声称,这些 MAI 模型只使用“企业级、干净且商业授权的数据”进行训练。
与其他抓取网络数据的人工智能公司一样,微软很可能依赖合理使用(fair use)。论文将这些数据描述为“公开可用数据与授权的人类生成数据的混合”。对于网络数据,微软表示,它使用“一个专有爬虫,遵守 Robots Exclusion Protocol(robots.txt)以及相关的 meta 标签和 HTML 控制,从而使网站所有者能够管理其网站内容的访问和使用方式”。
这等于把保护内容的责任推给网站所有者,就像假设任何没锁门的人都同意被闯入一样。合理使用仍存在争议,法院也仍在厘清这一问题。简而言之,微软所做的和其他所有人工智能公司一样,却把自己的训练数据包装得格外“干净”。事实并非如此。
来源与参考
收录于 2026-06-06