Cloudflare将本周大规模服务中断事件归咎于数据库问题
胡金鱼 2025-11-21 04:1:0 Author: www.4hou.com(查看原文) 阅读量:14 收藏

胡金鱼 新闻 刚刚发布

1926

收藏

导语:Cloudflare遭遇六年最严重服务中断 数据库权限变更引发全球网络连锁故障。

本周,Cloudflare发生六年来最严重的服务中断事件。数据库访问控制权限变更触发其全球网络连锁故障,导致大量网站及在线平台近6小时无法访问。

Cloudflare全球网络是一套分布式基础设施,服务器与数据中心遍布120多个国家,提供内容分发、安全防护及性能优化服务。该网络已与全球超1.3万个网络建立连接,包括所有主流互联网服务提供商(ISP)、云服务商及企业网络。

公司首席执行官Matthew Prince在故障缓解后发布的事后分析报告中表示,此次服务中断并非由网络攻击导致。故障源于某一数据库系统的权限变更——这一变更导致数据库向“机器人管理系统”使用的“特征文件”中输出多条重复条目。

一项常规的数据库权限更新,致使Cloudflare的机器人管理系统生成了包含重复条目的超大配置文件。该文件超出系统内置大小限制,导致网络流量路由过程中相关软件崩溃。

权限变更后,数据库查询返回了重复的列元数据,使特征文件中的条目从约60个翻倍至200多个,突破了系统为防止内存无限制占用而硬编码设定的200个特征上限。

Cloudflare 5xx error HTTP status codes.jpg

5xx 错误 HTTP 状态码在故障期间

每五分钟系统会生成一次配置文件——结果可能正常也可能存在故障,具体取决于哪些集群节点已完成更新,这导致网络在正常运行与故障状态之间反复波动。

此外,当超大文件在网络设备间传播时,机器人管理模块的Rust代码触发系统崩溃并返回5xx错误,进而导致负责流量处理的核心代理系统宕机。

随后,Cloudflare工程师定位故障根源并将问题文件替换为早期版本后,核心流量恢复正常。不久后,所有系统完全恢复运行。此次中断影响了Cloudflare的核心CDN、安全服务、Turnstile验证服务、Workers KV存储服务、控制台访问、邮件安全及身份认证服务。

Matthew Prince表示“鉴于Cloudflare在互联网生态系统中的重要性,任何系统中断都是不可接受的。”

此次中断事件是Cloudflare自2019年以来最严重的一次服务中断。以往也曾出现过控制台无法访问、新功能暂时不可用等情况,但过去六年多来,从未发生过导致大部分核心流量无法通过我们网络的中断事件。

今年6月,Cloudflare曾缓解过另一起大规模中断事件,当时导致多个地区的零信任WARP连接出现问题、身份认证服务故障,还影响了谷歌云基础设施。

10月,亚马逊也处理了一起由重大DNS故障引发的中断事件,该故障导致数百万使用其亚马逊网络服务(AWS)云计算平台的网站连接中断。

文章来源自:https://www.bleepingcomputer.com/news/technology/cloudflare-blames-this-weeks-massive-outage-on-database-issues/如若转载,请注明原文地址

  • 分享至

取消 嘶吼

感谢您的支持,我会继续努力的!

扫码支持

打开微信扫一扫后点击右上角即可分享哟


文章来源: https://www.4hou.com/posts/MX3B
如有侵权请联系:admin#unsafe.sh