宕机超 12 小时,损失过亿,唯品会基础平台负责人被“祭天”
2023-7-3 12:18:55 Author: Linux学习(查看原文) 阅读量:64 收藏

来自公众号:CSDN程序人生
整理 | 朱珂欣

对于后端程序员来说,“高并发”并非新鲜的话题,经历过一次服务器宕机,职业生涯才“完整”。

但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”!

3 月 29 日,#唯品会崩了#的话题登上热搜。 

近日,事件后续来了。

唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。

1、“崩”上热搜:损失超亿元,持续12小时

说起来,一切都还要追溯到 3 月末。

3 月 29 日,有多名网友反馈唯品会“崩了”,用验证码登录时显示网络错误,登不上去。

后,唯品会官方微博表示:因系统短时故障,导致主站“加购”等功能或出现异常。

图源:微博截图

时隔 2 个多月,唯品会官方对故障事件做出了回应。

据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。

故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。( P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大。)

与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。

其实,类似 329 号机房宕机的事故并非首次发生。

但毋庸置疑的是,唯品会作为拥有大量用户的电商平台,服务器和网络设备的正常运行至关重要。任何一次宕机事件,都会导致平台无法提供正常的服务,因此,每一次故障背后的原因和影响都值得大家思考,并引以为戒。

2、腾讯旗下社交软件受到“牵连”

同样值得注意的是,受到此次机房事故影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个功能无法使用

图源:微博截图

对此,腾讯微信团队在 3 月 29 日上午发布信息称:“今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。”
与此同时,腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了不同程度的批评、降级和和免职处罚处理。

3、高并发引起的服务器宕机,频繁发生

随着直播电商平台的发展,用户数的增多导致高并发的概率增大。

近年来,各大平台、热门 APP 的服务器,都似乎难逃卡顿、崩溃乃至宕机的宿命。

2017 年双十一凌晨,在数百万消费者的激情涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的服务器才恢复正常。

2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随后,#淘宝崩了# 话题迅速登上微博热搜榜,并占据榜首第一。

如今,即使互联网相关技术已经迭代多轮,却仍然存在许多大规模以及时间长的宕机事件发生。

针对这类问题,在 CSDN 之前报道的《“一天宕机三次”,为什么高并发这么难?》一文中提到,可以从两个方面进行解析:

  • 一方面故障是不可避免的,有人为的故障(人是容易出错的——Human Error)和非人为的故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如发布新系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。

    当前,我们所能努力的就是尽可能地做到多少个 9,这其中需要很强的技术实力支撑。

级别

可用性级别

通俗说法

年度停机时间

配套措施

基本可用性

99%

2 个 9

3d-15h-39m-29s

服务在一个数据中心里有冗余,简单基础的自动化运维

高可用性

99.9%

3 个 9

8h-45m-56s 

大量的自动化故障工具,以及各种控制调度系统等基础设施要做好

具有故障自动恢复

99.99%

4 个 9

52m-35s

本地多机房(像 AWS 一样每个地方都有三个可用区)

极高可用性

99.999%

5 个 9

5m-15s

远程多机房,异地多活

  • 另一方面,从分布式架构设计来说,世界上的软件都是有故障的,当故障发生时,大家首先希望故障不要蔓延开,能够控制得住,其次还希望故障的时间越短越好,不要太长。

然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。

4、网友:请给程序员加工资!

的确,服务器一旦宕机,消费者就无法对网站进行访问,客户下不了单,直接就会对公司经济利润造成很大的影响,甚至还可能影响到网站在搜索引擎上的收录和排名。

因此,每一年各个平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。

伴随着#唯品会崩了相关负责人被免职#等话题再次引发大家关注,许多人纷纷留言表示:

  • “希望以后大公司会有一套很完善的避免和处理宕机事故的流程”;

  • “宕机是各家常有现象,这么久的处理时间就确实邋遢了”;

  • “还是要加强基础设施建设和技术管理”;

  • “关键时候千万不能崩,这个影响到的客户数量”。

与此同时,也有不少网友借此表达了对程序员职业的关怀:

  • “服务器宕机这个事情挺正常的,辛苦开发人员们维护了”;

  • “我曾经是程序员,知道维护的不易,请给程序员们加工资”。

那么,你经历过服务器宕机吗?可以在评论区留言和讨论。

参考链接:

https://news.mydrivers.com/1/914/914671.htm

https://www.163.com/dy/article/I6HMABGN0553V12F.html

https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html

---END---

推荐↓↓↓

文章来源: http://mp.weixin.qq.com/s?__biz=MzI4MDEwNzAzNg==&mid=2649461315&idx=1&sn=f021a80f41125b932b8de6092f3f9e56&chksm=f3a2b330c4d53a261314cbabfbe01a1b02b0bd81b0d65bb492644cb575b31686b0ce32f876be#rd
如有侵权请联系:admin#unsafe.sh