气候变化给全球数据中心带来了新的挑战,也暴露出新的安全漏洞。温度破记录的热浪使冷却系统不堪重负,导致服务器过热,进而致使全球许多热门网站和应用纷纷崩溃。
一些公司在权衡是否将数据中心的温度稍调高一点,以此来降低能源成本,确保可持续性是摆脱能源成本急剧上升的途径。
攻击者的目标是通过攻击冷却系统,对过热做手脚,从而从数据中心窃取价值数十亿美元的数据。从网络犯罪团伙到复杂的高级持续性威胁(APT)攻击团队,许多由政府资助的组织都期望发动更多的数据中心攻击,而过热正是攻击者手里的武器。
对于许多公司来说,数据中心的成本持续攀升至创纪录的水平,其中能源成本超过了所有其他类别的支出,尽可能提高冷却效率对数据中心的盈利能力至关重要。冷却大约占数据中心总能耗的40%。虽然数据中心从改进冷却方法入手,逐步实现可持续性,在提高能源效率方面继续取得长足进步,但许多数据中心忽视了自己在可持续性方面能走得多远,从而带来了更大的网络安全风险。
据麦肯锡声称:“数据中心是能耗大户——超大规模计算公司的数据中心的用电量相当于8万户家庭的用电量。因此,数据中心在确保可持续发展方面面临很大的压力,一些监管机构和政府(包括新加坡和荷兰)正在对新建的数据中心实施可持续发展标准。”
尽管投入到确保可持续发展方面的资本达到了创记录的数额,但数据中心依然出现了服务器因过热而容易出现故障、从而导致中断的一幕。虽然新的冷却技术(包括室外空气冷却)具有成本效益,但同时它们给数据中心基础设施带来了污染物,这种污染物可能会损坏硬件。
数据中心降低冷却成本的另一种方法是提高服务器入口温度。众所周知,在数据中心,服务器是导致故障的最主要原因,因而为了节约成本而任由温度上升是有问题的。过热引起的服务器故障会导致意外停运,从而扰乱数据中心的正常运营,并可能导致网站、应用和在线存储出现不可预测的故障,从而造成数十亿美元的生产力损失。
有媒体采访了几位数据中心恢复专家,他们证实,数据中心在削减开支以节省成本,许多数据中心都在努力将服务器入口温度保持在80华氏度以下,这是服务器冷却的共识标准。
成本节约比降低网络安全风险更重要。
2022年推特(Twitter)的萨克拉门托数据中心因极端高温天气而宕机就是一个先例,表明了将来极端高温确实会影响服务器的性能。推特工程副总裁Carrie Fernandez 在写给工程师的内部备忘录中写道:“9月5日,由于极端天气,推特的萨克拉门托(SMF)数据中心区域停运。这起史无前例的事件导致该数据中心的物理设备完全关闭。”
推特的中断由于极端热浪造成,网络攻击者也注意到了这起故障及其他极端高温引发的故障,进而调整其攻击手法,以攻击暖通空调、电力和冗余电源系统。
攻击者不断调整攻击手法,并编写恶意软件以攻击冷却系统,从而迫使数据中心崩溃,以收到勒索赎金或者发表政治声明。
佐治亚州亚特兰大的一个数据中心在2018年遭到了网络攻击,导致多项城市服务关闭,包括市法院、警察局和亚特兰大哈茨菲尔德机场。网络攻击者使用SamSam勒索软件的变体,旨在加密每一台可用服务器上的数据。攻击者还渗入了数据中心的冷却系统,导致温度升高至100华氏度以上,损坏了服务器CPU和相关的芯片设备。
最后,网络攻击者索要了价值51000美元的比特币,以解锁服务器并交还冷却系统的控制权。
数据中心面临着不断扩充存储容量、缩短访问延迟、控制成本以及寻找新方法来抵御网络攻击的挑战。雪上加霜的是,数据中心又面临减少环境影响和能源消耗的压力,因为数据中心约占全球用电总量的 1%,约占全球温室气体排放量的0.3%。数据中心运营商正在制定创新的新战略,以实现这些具有挑战性的目标,包括更加依赖可再生能源、节水冷却系统和废热回收技术来提高可持续性。
以下策略给实施这些项目的数据中心拥有者和恢复专家带来了好处:
•养成制作详细热图的习惯,以识别热点和优化冷却。
数据中心恢复专家表示,这是许多数据中心运营商面临的一个盲点,他们没有养成定期制作热图的习惯。考虑到服务器在极端温度下性能会迅速降级,因此将此任务作为任何数据中心的肌肉记忆的一部分是好主意。
•考虑人工智能如何有助于改善耗电,并辅以环保型冷却器和蒸发冷却。
据有关专家和数据中心运营商声称,人工智能给数据中心带来的好处逐渐显现。有人认为,人工智能优化对于成功达到内部和监管标准基准所需的可持续性基准至关重要。为了避免超过服务器入口温度,更多的数据中心也在使用人工智能来实时解释并触发警报和操作,动态调整以防止过热,同时最大限度地提高效率。
•具有容错电源的冗余冷却系统是数据中心冷却的未来。
热浪和数据中心故障在欧美越来越常见,以及去年夏天发生在伦敦的重大故障,这些都表明了数据中心必须应对一种全新的高温挑战。
•使用人工智能优化数据中心资产清单日益受到追捧。
对于人工智能和机器学习算法来说,这是完美的用例,可以训练这些算法,以优化硬件和系统配置,从而应对数据中心正常运行需要遵守的一系列日益复杂的约束条件。使用基于人工智能的优化技术可以考虑服务器CPU的可持续性要求、资源负载和冷却要求,致力于为数据中心在最优性能状态下运行创造最佳的环境条件。
数据中心行业正努力减小其环境足迹,为此它必须兼顾可持续性和网络弹性目标。比如说,室外空气冷却等可持续解决方案可以节省能源,但如果不作为一项更广泛的数据中心网络安全计划的一部分加以管理,可能导致安全风险激增。
在竞相提高数据中心可持续性的态势下,运维团队和运营数据中心的公司是时候拥抱可持续性了!
参考及来源:https://venturebeat.com/data-infrastructure/the-cyber-risks-of-overheating-data-centers/