Cloudflare将本周大规模服务中断事件归咎于数据库问题

胡金鱼新闻刚刚发布

1926

导语：Cloudflare遭遇六年最严重服务中断数据库权限变更引发全球网络连锁故障。

本周，Cloudflare发生六年来最严重的服务中断事件。数据库访问控制权限变更触发其全球网络连锁故障，导致大量网站及在线平台近6小时无法访问。

Cloudflare全球网络是一套分布式基础设施，服务器与数据中心遍布120多个国家，提供内容分发、安全防护及性能优化服务。该网络已与全球超1.3万个网络建立连接，包括所有主流互联网服务提供商（ISP）、云服务商及企业网络。

公司首席执行官Matthew Prince在故障缓解后发布的事后分析报告中表示，此次服务中断并非由网络攻击导致。故障源于某一数据库系统的权限变更——这一变更导致数据库向“机器人管理系统”使用的“特征文件”中输出多条重复条目。

一项常规的数据库权限更新，致使Cloudflare的机器人管理系统生成了包含重复条目的超大配置文件。该文件超出系统内置大小限制，导致网络流量路由过程中相关软件崩溃。

权限变更后，数据库查询返回了重复的列元数据，使特征文件中的条目从约60个翻倍至200多个，突破了系统为防止内存无限制占用而硬编码设定的200个特征上限。

Cloudflare 5xx error HTTP status codes.jpg

5xx 错误 HTTP 状态码在故障期间

每五分钟系统会生成一次配置文件——结果可能正常也可能存在故障，具体取决于哪些集群节点已完成更新，这导致网络在正常运行与故障状态之间反复波动。

此外，当超大文件在网络设备间传播时，机器人管理模块的Rust代码触发系统崩溃并返回5xx错误，进而导致负责流量处理的核心代理系统宕机。

随后，Cloudflare工程师定位故障根源并将问题文件替换为早期版本后，核心流量恢复正常。不久后，所有系统完全恢复运行。此次中断影响了Cloudflare的核心CDN、安全服务、Turnstile验证服务、Workers KV存储服务、控制台访问、邮件安全及身份认证服务。

Matthew Prince表示“鉴于Cloudflare在互联网生态系统中的重要性，任何系统中断都是不可接受的。”

此次中断事件是Cloudflare自2019年以来最严重的一次服务中断。以往也曾出现过控制台无法访问、新功能暂时不可用等情况，但过去六年多来，从未发生过导致大部分核心流量无法通过我们网络的中断事件。

今年6月，Cloudflare曾缓解过另一起大规模中断事件，当时导致多个地区的零信任WARP连接出现问题、身份认证服务故障，还影响了谷歌云基础设施。

10月，亚马逊也处理了一起由重大DNS故障引发的中断事件，该故障导致数百万使用其亚马逊网络服务（AWS）云计算平台的网站连接中断。

文章来源自：https://www.bleepingcomputer.com/news/technology/cloudflare-blames-this-weeks-massive-outage-on-database-issues/如若转载，请注明原文地址

感谢您的支持，我会继续努力的!

扫码支持

打开微信扫一扫后点击右上角即可分享哟