导语:Cloudflare遭遇六年最严重服务中断 数据库权限变更引发全球网络连锁故障。
本周,Cloudflare发生六年来最严重的服务中断事件。数据库访问控制权限变更触发其全球网络连锁故障,导致大量网站及在线平台近6小时无法访问。
Cloudflare全球网络是一套分布式基础设施,服务器与数据中心遍布120多个国家,提供内容分发、安全防护及性能优化服务。该网络已与全球超1.3万个网络建立连接,包括所有主流互联网服务提供商(ISP)、云服务商及企业网络。
公司首席执行官Matthew Prince在故障缓解后发布的事后分析报告中表示,此次服务中断并非由网络攻击导致。故障源于某一数据库系统的权限变更——这一变更导致数据库向“机器人管理系统”使用的“特征文件”中输出多条重复条目。
一项常规的数据库权限更新,致使Cloudflare的机器人管理系统生成了包含重复条目的超大配置文件。该文件超出系统内置大小限制,导致网络流量路由过程中相关软件崩溃。
权限变更后,数据库查询返回了重复的列元数据,使特征文件中的条目从约60个翻倍至200多个,突破了系统为防止内存无限制占用而硬编码设定的200个特征上限。

5xx 错误 HTTP 状态码在故障期间
每五分钟系统会生成一次配置文件——结果可能正常也可能存在故障,具体取决于哪些集群节点已完成更新,这导致网络在正常运行与故障状态之间反复波动。
此外,当超大文件在网络设备间传播时,机器人管理模块的Rust代码触发系统崩溃并返回5xx错误,进而导致负责流量处理的核心代理系统宕机。
随后,Cloudflare工程师定位故障根源并将问题文件替换为早期版本后,核心流量恢复正常。不久后,所有系统完全恢复运行。此次中断影响了Cloudflare的核心CDN、安全服务、Turnstile验证服务、Workers KV存储服务、控制台访问、邮件安全及身份认证服务。
Matthew Prince表示“鉴于Cloudflare在互联网生态系统中的重要性,任何系统中断都是不可接受的。”
此次中断事件是Cloudflare自2019年以来最严重的一次服务中断。以往也曾出现过控制台无法访问、新功能暂时不可用等情况,但过去六年多来,从未发生过导致大部分核心流量无法通过我们网络的中断事件。
今年6月,Cloudflare曾缓解过另一起大规模中断事件,当时导致多个地区的零信任WARP连接出现问题、身份认证服务故障,还影响了谷歌云基础设施。
10月,亚马逊也处理了一起由重大DNS故障引发的中断事件,该故障导致数百万使用其亚马逊网络服务(AWS)云计算平台的网站连接中断。
文章来源自:https://www.bleepingcomputer.com/news/technology/cloudflare-blames-this-weeks-massive-outage-on-database-issues/如若转载,请注明原文地址








