Cloudflare全球网络容量达500太比特每秒

Cloudflare AI··作者 Tanner Ryan

关键信息

500太比特每秒是总配置容量,而非峰值流量,包括与传输提供商、私有对等伙伴、互联网交换中心和Cloudflare网络互连(CNI)端口的连接。每日峰值利用率低得多,差额即为‘DDoS预算’。

资讯摘要

Cloudflare最近在2026年实现了重大基础设施里程碑:其全球网络外部互联容量突破500太比特每秒。自2010年从一个单一传输提供商起步,公司逐步在330多个城市建立数据中心。如今,该网络保护着全球超过20%的网站,并能自动应对大规模DDoS攻击——例如2025年的一次31.4太比特每秒的攻击——通过由eBPF和XDP驱动的分布式系统(如dosd和l4drop)实现实时威胁检测与缓解,每个服务器都参与共享智能决策。

Cloudflare全球网络容量达500太比特每秒

资讯正文

Cloudflare的全球网络和骨干网在2026年的情况。

Cloudflare的网络最近达到了一个重要里程碑:我们突破了每秒500太比特(Tbps)的外部容量。

当我们说500 Tbps时,指的是总的已分配外部互联容量——即所有面向传输提供商、私有对等合作伙伴、互联网交换中心或Cloudflare网络互连(CNI)端口的端口之和,覆盖330多个城市。这不是峰值流量。在任何一天,我们的峰值利用率只是这个数字的一小部分。(其余部分是我们用于抵御DDoS攻击的预算。)

这与我们最初起步时相比可谓天壤之别。2010年,我们从帕洛阿尔托一家美甲店楼上的小办公室起步,只有一家传输服务商和一个只需修改两个域名服务器就能搭建的反向代理。

早期的传输与对等连接

我们的第一家传输服务商是nLayer Communications,如今大多数人更熟悉它的名字GTT。nLayer为我们提供了最初的带宽,并让我们第一次亲身经历了对等关系的管理,以及成本与性能之间的微妙平衡。

随后,我们逐城扩展:芝加哥、亚特兰大、圣何塞、阿姆斯特丹、东京。每个新数据中心的建立都意味着谈判机房租赁合同、拉光纤、安装服务器,并通过互联网交换中心建立对等连接。当然,互联网并不是真正的“云”,而是一系列具体房间,里面布满电缆,我们花了多年时间学习其中每一个细节。

并非每个城市的部署都一帆风顺,有时还要应对硬件短缺、海关罢工,甚至出现过牙线问题。2018年的一个月内,我们在24天里开通了31个城市:从加德满都和巴格达到雷克雅未克和基希讷乌。当我们第127个数据中心在澳门上线时,我们正在保护700万个互联网资产。如今,我们在330多个城市设有数据中心,保护着超过20%的全球网页。

当网络成为安全层

随着我们的覆盖范围扩大,客户不再仅仅需要网站缓存服务。他们还需要保护员工、替换老旧的多协议标签交换(MPLS)线路,并保护整个企业网络。我们没有使用传统设备,而是构建了系统,可在我们的全球网络上建立通往私有子网的安全隧道,并通过BGP直接宣告企业IP地址空间。

威胁规模也随之增长。2025年,我们成功缓解了一次持续35秒、峰值达31.4 Tbps的DDoS攻击。攻击源来自Aisuru-Kimwolf僵尸网络,其中包括许多被感染的安卓电视。当天我们共阻止了超过5000次攻击,且没有任何工程师被叫醒。

十年前,如此规模的攻击需要国家级资源才能应对。如今,我们的网络能在几秒钟内自动处理,无需人工干预。这就是运行在500 Tbps规模所需的:将智能部署到网络中的每一台服务器,让整个网络能够自我防御。

我们的网络如何响应攻击

当攻击发生时,实际会发生什么?数据包首先到达网络接口卡(NIC),立即进入由xdpd管理的eXpress Data Path(XDP)程序链,该程序以驱动模式运行。该链中最早执行的程序之一是

l4drop,它会根据扩展的伯克利数据包过滤器(eBPF)中的缓解规则对每个数据包进行评估。这些规则由我们的拒绝服务守护进程dosd生成,该进程在我们集群中的每台服务器上运行。每个dosd实例会采样传入流量,构建它所看到的最活跃攻击者的表,并将此表广播到机房内的其他所有实例。结果是在整个机房范围内形成共享的流量视图,由于每台服务器都基于相同的数据做出决策,它们能达成一致的缓解策略。

当dosd检测到攻击模式时,相应的规则会通过l4drop在本地应用,并通过Quicksilver——我们的分布式键值(KV)存储系统——在全球范围内传播,在几秒钟内到达每个数据中心的每一台服务器。只有在成功通过l4drop之后,数据包才会到达Unimog——我们的第四层(L4)负载均衡器,后者将数据包分发到数据中心内健康的服务器上。对于通过我们边缘节点路由企业网络流量的Magic Transit客户,flowtrackd进一步增加了基于状态的TCP检查功能,跟踪连接状态并丢弃不属于合法流的数据包。

我们缓解的31.4 Tbps攻击正是沿着这条路径进行的。没有流量被回传到集中式清洗中心,也没有人工干预。目标数据中心内的每台服务器都独立识别出攻击,并在数据包消耗任何应用处理的CPU周期之前以线速开始丢弃恶意数据包。软件只是故事的一半:如果端口不存在,无法吸收流量,这一切都无法实现。

一个分布式的开发者平台

在我们网络中每台服务器上运行代码,是我们掌控完整技术栈的自然结果。既然我们已经在每台机器上运行eBPF程序来丢弃攻击流量,那么也可以在那里运行客户的应用程序代码。这一洞察催生了Workers,随后是KV和Durable Objects。

我们的开发者平台运行在我们运营的每一个城市,而不是少数几个云区域。2025年,我们在Workers中增加了Containers功能,使更重的工作负载也能在边缘运行。V8隔离和自定义文件系统层最大限度减少了冷启动时间。你的代码将在用户所在的位置运行,就在那些通过l4drop以线速丢弃攻击流量的服务器上。攻击流量在到达网络协议栈前就被丢弃,你的应用程序根本不会看到它们。

前瞻性的协议:IPv6、RPKI、ASPA

我们很早就采用了IPv6和资源公钥基础设施(RPKI)。BGP劫持会导致真实的服务中断和安全漏洞。RPKI允许我们丢弃来自对等方的无效路由,确保流量按预期路径传输。我们为自己的IP前缀签发路由来源授权(ROA),并在入口处强制执行路由来源验证。即使偶尔因此导致与配置错误的ROA网络失去连通性,我们也会拒绝不符合RPKI规范的路由。

下一个步骤是RPKI。RPKI验证谁拥有某个前缀,而ASPA则验证数据包到达此处所经过的路径。RPKI就像抵达目的地时的身份检查,确认正确的所有者;而ASPA则像航班清单检查:它会验证流量经过的每一个网络。路由泄露就像一个在错误城市登机的乘客——RPKI无法发现这种情况,但ASPA可以。

当前ASPA生态系统的采用情况,类似于2015年RPKI刚起步时的样子。我们是最早大规模部署RPKI的网络之一,如今全球路由表中已有867,000个前缀拥有有效的RPKI证书,相比十年前几乎为零的数量实现了显著增长。在我们的规模下,我们选择的协议会对整个互联网产生实际影响。我们提前推动采用这些协议,因为等待只会导致更多劫持和泄露事件。

人工智能代理与不断演进的互联网

人工智能改变了我们在网络上存在的方式。在互联网历史的大部分时间里,流量都是由人类生成的,即人们在浏览器中点击链接。如今,AI爬虫、模型训练管道和自主代理所产生的请求已占我们网络总HTML请求量的4%以上,这一比例与Googlebot相当。「用户行为驱动」的爬取——即AI因人类提问而访问网页——在2025年单年增长了超过15倍。

从基础设施层面看,AI爬虫的行为不同于浏览器。浏览器加载页面后就会停止,而爬虫则以最大吞吐量获取所有链接资源,并且在请求之间不作停顿。在我们的规模下,区分合法的AI爬取与真实攻击是一个真实的工程挑战。我们的检测系统结合了受信任的机器人IP范围、TLS指纹识别、行为分析以及robots.txt合规信号来做出判断,同时帮助网站所有者决定允许哪些爬虫访问。

例如,在TLS层面上,一个合法浏览器会发出带有可预测加密套件、扩展项及顺序的ClientHello消息,这与其声明的User-Agent一致。而一个伪装成浏览器User-Agent但使用简化版TLS库的爬虫,则会呈现不同的指纹特征,这种差异正是我们系统用于分类请求的关键信号之一,从而在请求到达源服务器之前就完成识别。

帮助我们构建下一个500 Tbps

这一切始于帕洛阿尔托一家美甲店上方的空间,如今已发展成为覆盖125多个国家330多个城市的500 Tbps网络,其中每台服务器都运行着我们的开发者平台和安全服务,而不仅仅是缓存功能。这是十六年架构决策的积累成果,我们要感谢与我们对等互联的13,000多个网络和合作伙伴。我们远未结束。

如果您是网络运营商,请与我们对等互联。我们的对等政策和互联细节可在PeeringDB上找到。如果您有兴趣将Cloudflare基础设施直接嵌入您的网络,请联系我们的团队epp@cloudflare.com,加入Edge Partner计划。

来源与参考

  1. 原始链接
  2. 500 Tbps of capacity: 16 years of scaling our global network