我不由想起小时候,每当电视图像不清楚时,我妈都在上面「咣咣」拍几下,简单、粗暴、有效。
7月19日,全球Windows电脑出现大面积蓝屏事件,据统计约有850万台电脑发生了蓝屏、宕机、无法服务等故障。该事件进一步引发了下游服务行业「地震」,影响包括航空公司、机场、银行、酒店、医院、证券交易所等多个行业,例如大量的航班被迫取消,政府服务如紧急电话和网站也受到波及。
瑞士国际航空有30%的航班停飞。德国汉莎航空公司网站的「资料和预订查询」功能出现问题。瑞安航空的预订和值机服务无法使用,该航空公司「被迫取消少量航班」,建议乘客在起飞前至少提前三小时到达机场。Wizz Air将其在线服务中断归咎于此次事件。荷兰皇家航空公司暂停了大部分业务,宣布存在问题时无法处理航班,Transavia Airlines也出现问题。芬兰航空报告称,他们在向客户发送电子邮件和短信方面遇到问题。希腊主要机场,尤其是雅典的雅典国际机场和伊拉克利翁的伊拉克利翁国际机场,公民和游客遇到了重大延误。
受影响的银行包括加拿大皇家银行和道明银行、南非Capitec Bank和其他银行、澳大利亚国民银行、西太平洋银行、澳新银行、联邦银行、本迪戈银行和Suncorp的应用程序受到影响。几家以色列银行和菲律宾的银行,如RCBC、Metrobank、LandBank、BDO、UnionBank、BPI和PNB。印度储备银行(RBI)表示,只有10家银行和非银行金融公司(NBFC)受到此次中断的影响。
在美国,阿拉斯加、亚利桑那、佛罗里达、爱荷华、印第安纳、堪萨斯、密歇根、明尼苏达、纽约、俄亥俄、俄勒冈、宾夕法尼亚和弗吉尼亚的部分地区出现911服务中断或911呼叫中心运营中断。
由于服务中断,菲律宾的政府网站,如菲律宾众议院网站,无法访问;加拿大多伦多市也受到影响,加拿大儿童福利金支付被推迟;新西兰阳光海岸市议会也因此出现问题;斯洛伐克国家安全局发言人证实,斯洛伐克的几个机构受到影响。另外美国国土安全部、NASA、联邦贸易委员会、国家核安全管理局、司法部和教育部受到影响,财政部和国务院报告了轻微中断。
这应该是全球蓝屏数量最多的一次安全事件,约有850万台设备出现故障,其下游传递更深层次的影响还在持续,但在给出的众多解决办法中,其中一项竟然是:反复关机重启。
这不是在开玩笑,官方最早给出的修复办法就是「重启试试」。有些比较着急恢复服务的用户真的尝试了这个操作,并且真的成功了。如下图所示,在微软 Azure 云服务页面,有用户反馈称,通过多次重启虚拟机成功解决了系统崩溃;有的客户称重启了 15 次才成功。
微软表示,其「注意到在多次手动重启虚拟机之后,部分 Azure 虚拟机可通过 CrowdStrike Falcon 代理成功完成更新」。因此建议客户尝试以下操作:
使用 Azure 门户——尝试在受影响的虚拟机上执行「重启」操作。
使用 Azure CLI 或者 Azure Shell。
Walters 同时警告称,「用户通常不需要多次重启,除非还存在其他潜在问题。有时候,如果系统已经多年没有重启,那么重启后可能会在启动阶段引发特定问题。由于重启不正确,数据库在启动后可能无法正常工作,进而导致其他问题。」
与此同时,这波操作引发了IT人员和安全人员在社区大面积吐槽,不由想起小时候,每当电视图像不清楚时,我妈都在上面「咣咣」拍几下,简单、粗暴、有效。更有网友调侃,「如果多次重启无法解决,建议检查是否已接入电源。」
有安全专家也指出,CrowdStrike 的IT人员对于产品重大更新明显缺少敬畏心理,难道发布如此大范围的更新,不需要进行大量测试确保安全性吗?
也许 CrowdStrike 进行了一些例行公事般的测试,也有可能是测试环境过于理想化,亦或是更新发布前缺乏充分的多层次验证,未能在小范围内发现并修复问题,总之,这个严峻的问题就这样被放出来了,于是当该软件的更新被发布时,全世界都看到了同一个蓝色屏幕。
有网友指出,这个故事再次告诉我们,世界就是个巨大的草台班子;但是安全人表示,每次进行重大更新都是胆战心惊,只有一次次的充分测试才能确保安全,安全也确实来不得半点马虎。
还有不少网友都表示,「已经因为更新而在许多小问题上受了不少苦,现在我非常不愿意安装任何更新。这可能太保守了,但明智的中间立场又在哪里呢?」
微软相关公告和技术支持说明:
协助客户解决 CrowdStrike 引发的故障
https://news.microsoft.com/zh-cn/%e5%8d%8f%e5%8a%a9%e5%ae%a2%e6%88%b7%e8%a7%a3%e5%86%b3-crowdstrike-%e5%bc%95%e5%8f%91%e7%9a%84%e6%95%85%e9%9a%9c/
Helping our customers through the CrowdStrike outage
https://blogs.microsoft.com/blog/2024/07/20/helping-our-customers-through-the-crowdstrike-outage/
KB5042426: CrowdStrike issue impacting Windows servers causing an 0x50 or 0x7E error message on a blue screen
https://support.microsoft.com/en-us/topic/0d7741f7-aca1-4487-8a54-bd431cb49455
KB5042421: CrowdStrike issue impacting Windows endpoints causing an 0x50 or 0x7E error message on a blue screen
https://support.microsoft.com/en-us/topic/kb5042421-crowdstrike-issue-impacting-windows-endpoints-causing-an-0x50-or-0x7e-error-message-on-a-blue-screen-b1c700e0-7317-4e95-aeee-5d67dd35b92f
CrowdStrike的相关技术说明和恢复指导:
Technical Details: Falcon Content Update for Windows Hosts
https://www.crowdstrike.com/blog/falcon-update-for-windows-hosts-technical-details/
Remediation And Guidance Hub: Falcon Content Update For Windows Hosts
https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/
1.进入安全模式:首先尝试重启计算机,进入安全模式。如果直接重启无效,可以尝试多次异常重启进入安全模式
2.删除特定文件:在安全模式下,导航至 C:\Windows\System32\drivers\CrowdStrike目录,删除与故障相关的文件,特别是名称中含有「C-00000291」的sys文件
3.使用厂商发布的小工具:部分安全厂商发布了一些紧急恢复工具,可以在安全模式下使用该工具一键处理异常文件,节省处置所需时间
一、物理主机:
1.进入windows安全模式下,进入Windows\System32\Drivers\CrowdStrike目录,删除「C-00000291*.sys」文件,重启即可。
2.使用WinRE/WinPE启动主机,导航到主机系统盘Windows\System32\drivers\CrowdStrike目录,删除「C-00000291*.sys」文件,重启即可。
二、云主机/虚拟主机:
1.关闭云虚拟主机。
2.分离磁盘卷。
3.将分离后的磁盘卷附加到一台可以正常启动系统的主机上。
4.导航到Windows\System32\drivers\CrowdStrike目录下,删除「C-00000291*.sys」文件。
5.重新将磁盘卷附加到问题云主机上,启动即可。
三、Bitlocker加密:
1.如果你的磁盘开启了Bitlocker加密,以上操作均需要Bitlocker密钥进行解密。
2.可用通过Microsoft Azure恢复Bitlocker密钥,前提是你在加密之后将Bitlocker密钥保存在了Microsoft Azure上。
四、虚拟主机Bitlocker恢复:
1.Citrix
1).在 Citrix Endpoint Management 控制台中,导航到设置 > 服务器属性。
2).搜索 shp 并启用 shp.console.enable 功能。确保 enable.new.shp 保持禁用状态。
3.)导航到配置 > 设备策略。找到您的 BitLocker 策略或创建一个,然后启用 BitLocker Recovery 备份到 Citrix Endpoint Management 设置。