近期最大的IT中断,CrowdStrike的一次错误更新引发了全球技术崩溃,导致航班停飞、银行业务中断、企业陷入瘫痪。深入了解这次历史性技术中断的原因、影响和恢复工作。
周五,CrowdStrike发布的一次看似微不足道的软件更新(旨在增强安全性)却震动了全球IT基础设施,引发了历史上最大规模的IT中断,影响了全球的银行、航空公司、医院和媒体机构。
这起事件让人想起2017年3月,当时亚马逊网络服务(AWS)经历了一次重大服务中断,导致全球数百个网站离线数小时。调查显示,整个灾难都是由AWS工程师的一个小打字错误引起的。
据报道,此次故障导致Windows PC和计算机系统重启、网络中断并出现可怕的蓝屏死机。虽然全球的Microsoft用户受到影响,但Mac和Linux主机仍然安全。
CrowdStrike首席执行官George Kurtz表示,微软此次大规模中断是由CrowdStrike的“Falcon Sensor”更新引起的。该问题已被隔离,并已部署修复程序。CrowdStrike目前正在与受Windows主机单个内容更新影响的客户合作。
“该漏洞已影响全球许多证券交易所、超市和航班运营。用户正在经历蓝屏死机(BSOD)错误,这导致他们的系统意外关闭或重启。”
网络安全研究员Kevin Beaumont在X上发帖称,全球IT中断的罪魁祸首是CrowdStrike,而不是微软,因为其EDR产品被世界各地的大型组织使用。CyberKnow报道称,“相当一部分澳大利亚互联网、银行和媒体机构”受到影响,这个问题是技术故障,而不是来自中国或APT40的网络攻击。
据《Spectator Index》报道,英国、澳大利亚和世界其他地区的支付系统也受到了影响。此外,美国许多州的911服务也中断,包括俄亥俄州、亚利桑那州、阿拉斯加州、印第安纳州、明尼苏达州和新罕布什尔州。故障导致Sky News停播,并影响了伦敦证券交易所的服务。据跟踪互联网中断的网站DownDectector称,Visa、ADT安全公司和亚马逊的网络中断情况越来越严重。
据Rawsalerts报道,华盛顿特区的火车服务已暂停,而包括Frontier航空、Sun Country航空、美国航空、联合航空和达美航空在内的各大航空公司已针对当前形势对所有航班实施“全球停飞” 。在欧洲,瑞安航空的应用程序和网站用户报告称,周五早上登机时遇到困难。约1400个航班被取消。NHS报告称,英格兰的大多数全科医生诊所都面临问题,火车、商店和药店也面临类似的挑战。
微软方面承认了此次中断,并将其归咎于“第三方”问题,但并未明确指出CrowdStrike。微软报告称,美国中部地区发生了一次中断,影响了部分使用多项Azure服务的客户。
周五,Microsoft 365应用和服务出现数小时的中断。该公司目前正在调查此问题,并试图修复它,并“逐步”缓解用户的压力。在X上的一系列帖子中,微软表示,他们正试图将受影响的流量重新路由到“健康”的替代系统,以加快补救工作。
一些网络安全专家称此次事件是近年来最严重的技术中断,凸显了企业对少数几家主要软件供应商的严重依赖,而这些依赖往往是不稳定的。此次大范围中断促使多个国家的国家应急小组召开会议,评估情况。值得庆幸的是,没有关于紧急热线等基本服务完全中断的报告。
Ecliptic Dynamics联合创始人、前英国陆军和英国政府情报专家Tom Kidwell对此次中断发表评论称:“今天早上影响Windows设备的中断似乎是由CrowdStrike的驱动程序更新引起的,导致较旧的Windows设备和服务器瘫痪,这些设备和服务器将受到最严重的打击。不幸的是,对于CrowdStrike来说,如果真是这样,修复起来可能会很麻烦。”
“由于更新的性质,每个组织中的个人都需要启动到安全模式,删除问题文件/驱动程序,然后回滚或更新到新版本,这是CrowdStrike需要非常迅速发布的功能,”他解释道。
“此类事件凸显了在如此大规模的范围内使用单一供应商的脆弱性,以及组织必须制定备用计划的原因。供应商的最佳做法是在推出任何更新之前对其进行压力测试,但是,当你为全球60-90%的地区提供服务时,这可能很困难,”汤姆补充道。
评论已关闭。