Cloudflare收紧AI爬虫规则

TechCrunch AI·7月2日 01:48 UTC·作者 Sarah Perez

关键信息

Cloudflare表示，重点针对的是把搜索、智能体行为和模型训练混在一起的“混合用途”爬虫，同时允许站点所有者选择退出或调整默认设置。公司还称，超过一半的AI爬虫流量花在重复抓取未变化页面上，并正把Pay Per Crawl扩展为Pay Per Use，首批合作伙伴包括Ceramic.ai和You.com。

资讯摘要

Cloudflare宣布了一项新的默认政策，从2026年9月15日开始，带广告的网站将默认阻止“混合用途”AI爬虫。公司表示，这项规则的目的，是更清晰地区分用于传统搜索的爬虫和用于AI智能体、模型训练的爬虫。按照新的默认设置，这一封锁将适用于新的Cloudflare客户、现有客户新建的网站，以及所有现有免费客户，除非站点所有者手动更改设置。Cloudflare称，希望帮助出版商在保持内容可被搜索发现的同时，不必免费交出自己的知识产权。公司还表示，互联网如今已经以非人类流量为主，因此行业必须更快行动，才能形成可持续的生态。

Cloudflare在公告中还特别提到，最大的搜索引擎由于其爬虫体系，往往让出版商更难在保持可见性的同时避免被AI系统使用。谷歌此前曾回应类似批评，表示其Google Extended可以让网站所有者选择不让内容用于训练和AI产品，但不会影响Google Search收录。Cloudflare还在把此前的Pay Per Crawl扩展为Pay Per Use，使出版商不仅能在内容被抓取时收费，还能在内容创造价值时收费。公司称，首批合作伙伴是Ceramic.ai和You.com，出版商在内容出现在Ceramic的AI搜索结果中，或在You.com访问其付费内容时都可以获得报酬。

资讯正文

Cloudflare 刚刚为 AI 行业设定了一个新期限，要求其将用于传统搜索目的的网络爬虫（例如 Google Search）与用于 AI 智能体和训练的爬虫区分开来。Cloudflare 于周三宣布，从 2026 年 9 月 15 日起，其默认设置将阻止任何托管广告的页面上的“混合用途”爬虫。

这意味着，那些同时用于搜索、智能体使用和训练的爬虫，默认将被禁止抓取这些网站，除非网站所有者另外调整设置。该公司表示，这些默认设置的变化将适用于新的 Cloudflare 客户、现有客户新建的网站，以及所有现有的免费用户。

这一举措可能会影响 AI 模型提供商获取网络内容用于训练，以及支撑其智能体服务的方式。

Cloudflare 指出，大多数网站所有者希望自己的内容能够通过搜索被发现，也往往希望能通过 AI 服务被发现，但他们同样希望有保护措施，防止自己的知识产权被免费拿走。

Cloudflare 特别点名了“世界上最大的搜索引擎”（显然是在指 Google！），称由于这家搜索巨头让客户在不被用于 AI 的情况下保持可发现性变得困难，它获得了大约“2 倍更多的信息”，相比之下其他 AI 公司则没那么容易获得这些信息。

Google 过去曾对这种概括提出反驳，指出其提供了一个名为 Google Extended 的机器人，让网站所有者可以选择不让其内容被用于训练以及 Gemini Apps 和 Vertex API 等 AI 产品和服务。启用该选项不会影响网站被纳入 Google Search。不过，这家科技巨头的旗舰爬虫 Googlebot 仍会为 Search 抓取内容，其中包括 AI Overviews 和 AI Mode 等 AI 功能。

Cloudflare 联合创始人兼 CEO Matthew Prince 在宣布这一消息时表示：“现在，互联网流量的大多数已经不是人类，我们必须进一步行动并加快步伐，才能让一个可持续的生态系统出现。”他指的是最近一个里程碑：机器人首次在网络流量中超过了人类流量。原本预计这种转变要到明年才会发生。

Prince 说：“Cloudflare 的新工具和合作伙伴关系为网站所有者提供了更高的可见性和商业机会，也让那些拥有意图明确、透明的机器人的 AI 公司受益。我们希望，我们提出的默认设置变更能促使混合用途爬虫将搜索与智能体使用和训练分离开来。”

虽然 Cloudflare 提供了多种产品，帮助用户部署自己的 AI 系统，但公司也推出了一系列工具，让出版商在 AI 时代对其内容拥有更多控制权。近年来，Cloudflare 推出了用于对抗 AI 机器人的工具，其中包括一个允许网站向抓取内容的 AI 机器人收费的市场，名为 Pay Per Crawl。

该产品如今也在演变为“Pay Per Use”，公司表示，这将允许出版商在其内容创造价值时向 AI 公司收费，而不仅仅是在内容被抓取时收费。

这一变化还可能帮助出版商节省带宽和计算资源，因为 Cloudflare 的数据显示，AI 爬虫的抓取流量中有超过 50% 都花在了重新抓取未发生变化的页面上。

为将这一点付诸实践，Cloudflare 最初正在与两个合作伙伴合作，分别是 Ceramic.ai 和 You.com。当出版商选择加入后，只要其内容出现在 Ceramic 的 AI 搜索结果中，或者 You.com 访问了其部分付费内容，他们就能获得报酬。

Cloudflare 表示，其他 AI 公司也可以根据自身的工作方式定制这一模式。

来源与参考