Cloudflare推出AI训练重定向功能以确保数据纯净

Cloudflare AI··作者 André Cruz

关键信息

该功能仅在付费Cloudflare计划中可用,并利用HTML中已有的<link rel="canonical">标签;它不会影响人类用户或标准搜索引擎爬虫。

资讯摘要

Cloudflare发现,在过去30天里,AI训练爬虫访问其废弃文档达480万次,尽管页面上有明确的去标识标签和规范链接。这些对人类有效的信号被AI爬虫忽略,导致过时内容被用于训练模型。

为解决此问题,Cloudflare推出了“AI训练重定向”功能:当经验证的AI爬虫请求废弃页面时,Cloudflare返回301重定向至当前规范URL,确保AI代理从准确、最新的内容中学习。该方案利用现有的RFC 6596规范链接,无需新增指令或手动维护,即可实现规模化部署。

Cloudflare推出AI训练重定向功能以确保数据纯净

资讯正文

Cloudflare的Wrangler CLI在过去六年中发布了多个主要版本,每个版本都包含至少一些对命令、配置或开发者与平台交互方式的关键变更。像任何积极维护的开源项目一样,我们保留了旧版本的文档。v1版本的文档带有弃用横幅、noindex元标签和指向最新文档的规范标签。每一条提示信号都在传达相同的信息:此内容已过时,请另寻他处。但AI训练爬虫并不总是可靠地遵守这些信号。

我们在developers.cloudflare.com上使用了AI爬取控制功能,因此我们知道,在过去30天里,属于AI爬虫类别的机器人访问了480万次,并且以与当前内容相同的速率消耗了已弃用的内容。这些提示信号并未产生可测量的影响。这种影响是累积的,因为AI代理并不总是实时获取内容;它们依赖于训练过的模型。当爬虫摄入已弃用的文档时,代理会继承过时的基础知识。

今天,我们推出了AI训练重定向功能,让您强制让经过验证的AI训练爬虫重定向到最新的内容。您现有的规范标签将自动变为HTTP 301重定向,针对经验证的AI训练爬虫,只需一个开关设置,适用于所有付费Cloudflare计划。

而且,由于状态码最终是网页向爬虫传达策略的方式,Radar的AI洞察页面现在包括响应状态码分析,显示AI爬虫在所有Cloudflare流量中接收到的各种类型的状态码(成功(2xx)、重定向(3xx)、客户端错误(4xx)和服务器错误(5xx)),从而展示当今网络对AI爬虫的响应情况。

如今,AI训练爬虫面临死胡同

对于搜索引擎来说,noindex是一个丰富的信号系统,但目前没有一种内联指令能让页面明确表示“不要基于此内容进行训练”。保留已弃用页面并附带警告横幅可能对人类用户有效——他们读到提示后会继续导航——但AI训练爬虫会完整摄入文本内容,可能会把警告横幅当作普通段落之一,即使警告可见,仍会重复返回数千次。

阻止也会带来新问题:它会产生一个无信号的空白区,无法告诉爬虫应该学习什么。robots.txt提供的保护有限,但随着自动化流量的增长,维护针对每个爬虫、每个路径、每次内容更新的指令需要大量手动工作。爬虫真正需要的是具体指引:“当前内容位于此处。”

<link rel="canonical">标签是RFC 6596中定义的HTML元素,用于告诉搜索引擎和自动化系统哪个URL代表该页面的权威版本。目前已有65%至69%的网页包含这一标签,并且由EmDash、WordPress和Contentful等平台自动生成。这套基础设施明确了您内容的当前版本,而AI训练重定向功能则确保其得到执行。

标签已存在于您的HTML中。AI爬虫类别涵盖用于AI模型训练的机器人,包括GPTBot、ClaudeBot和Bytespider,它与AI助手和AI搜索类别不同,后者覆盖的是AI代理。

当来自已验证AI爬虫的请求到达时,Cloudflare会读取响应的HTML。如果存在一个不指向自身页面的规范标签(canonical tag),Cloudflare会在返回响应前向规范URL发出301永久移动重定向。人类访问流量、搜索引擎索引和其他自动化流量不受影响。

以下是GPTBot请求已废弃路径时的交互示例:

GET /durable-objects/api/legacy-kv-storage-api/

Host: developers.cloudflare.com

User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot)

HTTP/1.1 301 Moved Permanently

Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/

这不会做什么

它不会回溯修正已经摄入的训练数据,也不会覆盖不在AI爬虫机器人类别中的未验证爬虫。人类用户和AI代理访问已废弃页面时不会被重定向。我们还特意排除了跨域规范标签(指向不同域名上首选URL的标签),因为它们通常用于域名整合而非内容新鲜度。为了避免循环重定向,自引用规范标签(指向自身URL的标签)也不会触发重定向。

为什么不直接使用重定向规则?

单条重定向规则可以通过用户代理字符串来定位AI爬虫,如果网站只有少量已知的废弃路径,这种方式可行。但它无法扩展:每新增一条废弃路径都需要修改规则,必须手动跟踪用户代理,并且这会占用原本可用于活动链接或域名迁移的计划限制。此外,重定向规则还会人为重新编码规范标签本已声明的内容,随着内容变化容易出现不同步问题。

我们在自家文档网站上的经验表明,这个问题确实存在。我们使用相同的仪表板在developers.cloudflare.com上启用了AI爬虫控制功能,该功能对所有Cloudflare客户开放。2026年3月,OpenAI爬取了约46,000次旧版Workers文档,Anthropic爬取了3,600次,Meta爬取了1,700次。

这种对废弃页面的爬取可能是为什么我们在2026年4月询问一款主流AI助手‘如何使用Wrangler CLI写入KV值’时,它给出了过时的答案:‘你通过Wrangler CLI的kv:key put命令写入Cloudflare KV。’

事实上,在2026年4月时正确的语法是wrangler kv key put;冒号语法(kv:key put)早在Wrangler 3.60.0版本中就被弃用。我们的文档中有内联弃用提示,但尚不清楚训练管道如何解读这些信息。

因此,我们在developers.cloudflare.com上启用了AI训练重定向功能并进行了效果测量。在最初的七天里,所有带有非自引用规范标签的AI训练爬虫请求都被成功重定向,未再提供废弃内容。

我们预计,将爬虫重定向到当前内容最终会改善AI对旧工具生成答案的准确性。由于训练管道具有封闭性且重新爬取的时间存在差异,这是一个我们需要持续验证的假设。不过,爬虫在访问时所接收到的内容已经立即得到了改善。

如何启用

如果你的网站设置了规范标签(canonical tags),现在可以通过验证过的AI训练爬虫强制执行现有的内容层级结构。Cloudflare的验证机器人分类功能会自动处理爬虫识别。

在仪表板中:进入任意域名的AI爬取控制 > 快速操作 > AI训练重定向 > 开启开关即可。

若需通过配置规则或Cloudflare for SaaS实现路径级控制,请参阅完整文档。

AI爬虫如何响应网页

AI训练重定向将一个状态码——301 Moved Permanently——转化为你内容策略的执行机制。但301只是来源与爬虫之间更广泛对话中的一个信号。200 OK表示内容已成功提供;403 Forbidden表示访问被阻止;402 Payment Required则告知客户端需要付费才能访问。综合来看,AI爬虫流量中各类状态码的分布揭示了整个网络在大规模上是如何响应爬虫的。

Radar的AI洞察页面现在包含一个响应状态码分析图表,展示了AI爬虫流量中前几种响应状态码或状态码分组(可通过下拉菜单选择)的分布情况。数据可根据行业设置进行筛选;在数据探索器中也可以应用爬取目的过滤器。经过筛选的分析能帮助我们了解特定类型的爬虫行为是否不同,或者请求模式和分布是否因行业而异。

以图中所示的一般示例为例,在该图表覆盖的时间范围内,超过70%的请求得到成功响应(200),约10.1%的请求被重定向到另一个URL(301、302),3.7%的请求是找不到文件的情况(404)。8.3%的请求因访问被阻止而收到403状态码。归类统计后发现,近74%的请求获得成功响应(2xx),13.7%收到客户端错误响应(4xx),11.3%收到重定向消息(3xx),1.2%返回服务器错误响应(5xx)。

这项分析也已添加至各个机器人详情页,以便进一步了解爬虫行为的这一方面。以下展示的GPTBot示例中,同样时间段内,超过80%的请求获得成功响应(200),4.7%的请求被重定向到其他URL(301),仅2.7%的请求因文件不存在而失败(404)。接近6%的请求被阻止,Cloudflare返回403状态码。归类统计后发现,83%的请求获得成功响应(2xx),近10%收到客户端错误响应(4xx),5.1%收到重定向消息(3xx),其余2.2%返回服务器错误响应(5xx)。

如上所述,Radar 的数据探索工具使用户能够通过应用更多筛选条件进一步深入分析数据。例如,我们可以查看哪些爬虫请求了最多的不存在内容(导致返回 404 响应状态码),以及这些请求流量随时间的变化趋势;还可以查看哪些行业向用于训练的爬虫发送了最多的重定向响应(3xx 状态码),以及此类活动随时间的变化情况。

无论是整体汇总数据还是按机器人分别统计的状态码数据,都可以通过 Cloudflare Radar API 获取。

AI 训练重定向功能让你能够控制爬虫从你的源站获取的内容;Radar 的状态码分析则让你了解整个网络其他网站是如何执行类似操作的。在 AI 爬取控制 > 概览 > 快速操作中启用 AI 训练重定向功能,即可立即开始将建议信号转变为强制结果。

如有疑问或希望分享你所观察到的情况,请加入 Cloudflare 社区的讨论,或在 Discord 上找到我们。

来源与参考

  1. 原始链接
  2. Redirects for AI Training enforces canonical content

收录于 2026-04-18