#云计算 真草台班子!谷歌 GCP 再出现重大事故,无预警封禁全栈智能云平台 Railway 账户导致后者出现大范围中断。账号被封后 Railway 在 GCP 的所有资源全部无法访问,随后 Railway 紧急联系谷歌恢复账号权限并开始陆续恢复资源,但直到本文发布时 Railway 所有工作流还未完全恢复 (已经持续 8 小时)。查看详情:https://ourl.co/113002
2026 年 5 月 20 日 05:29 开始,现代开发者友好型全栈智能云平台 Railway 出现大范围中断事故,用户遇到无正常上游连接、无条件掉线过载、无法正常登录、无法访问控制面板等诸多错误,突然出现大规模的系统异常让 Railway 团队都感到无比震惊。
不过更加让人震惊的是,经过初步调查 Railway 团队发现故障根源竟然是该平台使用的谷歌 GCP 服务器出现异常,随后团队发现谷歌竟然在没有任何通知的情况下直接封禁 Railway 的谷歌云账号,账号被封禁后各类服务自然也立即停止运营。
紧急联系谷歌恢复账户权限:
不得不说 Railway 运维团队还是非常给力的,在异常发生 13 分钟后该团队就已经紧急联系谷歌并恢复账号访问权限 (包括发现问题、紧急联系谷歌沟通、谷歌恢复账号访问权限),随后运维团队开始努力重启各类服务并对关键基础设施进行错误修复。
由于能够正常使用的服务器资源有限,Railway 团队不得不临时禁止所有非企业级账户的构建工作,避免太多构建让现有的服务器过载而导致更多崩溃问题,随后运维团队就是想办法尽快恢复谷歌云中的各种服务。
这中间还存在其他插曲,包括运维团队尝试恢复谷歌云上的服务器资源时持续遇到网络问题导致服务器无法启动,迫于无奈 Railway 团队只能再次紧急联系谷歌支持团队要求提供协助,似乎到本文发布时所有服务还是没有恢复正常。
根据 Railway Status 页面公布的最新情况,目前 Railway 仍然禁止所有非企业级构建并且用户可能还会遇到间歇性访问问题,至于具体原因在谷歌还是 Railway 内部程序故障暂时还不清楚,Railway 还未公布新的后续进展。
开发者可能需要迫使谷歌公布封号调查:
在 2024 年谷歌云平台就曾出现过将澳大利亚大型养老金集团 UniSuper 的数据删除,当时由于谷歌工程师在帮助客户进行私有化部署时漏填参数,最终系统将客户的生产环境和两个跨区域备份全部删除。
所幸 UniSuper 集团日常还有额外的备份,于是通过备份数据重新恢复系统,而恢复工作就持续两周。如果没有额外备份那这件事可能会造成非常严重的后果,因为 UniSuper 为 62 万名成员提供服务,管理着 1,250 亿澳元的资产。
这件事在当时引起非常多的关注,以至于谷歌最终发布博客公布详细原因并称这是一起前所未有的、孤立的、独一无二的事件,谷歌事后也采取补救措施优化工具和避免工程师再出现类似的误操作。
回到 Railway 封号事件上,希望这起事件也能引起更多开发者关注,这样才能给谷歌施加压力调查问题发生原因以及采取哪些措施补救,不仅对开发者来说,自己依赖的关键基础设施可能会被随时封号是个非常恐怖的事情,如果谷歌不能给出让开发者满意的答复,估计大家也不敢再继续使用谷歌云。
via Railway Status
