来源路透社: Amazon's AWS struggles to recover after major outage disrupts apps, services worldwide | Reuters
10 月 20 日(路透社)——亚马逊(AMZN.O),打开新标签页周一,云服务部门 AWS 正努力从大面积宕机中恢复,此次宕机导致数千个网站以及一些全球最受欢迎的应用程序(Snapchat 和 Reddit)瘫痪,并扰乱了全球业务。
此次事件是自去年CrowdStrike 故障导致医院、银行和机场的技术系统瘫痪以来最大规模的互联网中断,凸显了全球互联技术的脆弱性。
经过九个多小时的中断,部分应用程序于美国东部时间下午 1:00(格林威治标准时间 17:00)逐渐恢复上线。但 AWS 承认,高错误率仍然影响着多项 AWS 服务,并且正在努力恢复连接。
据故障追踪网站 Downdetector 称,截至美国东部时间下午 1:00,AWS 服务已影响超过 9,300 名用户。这一数字高于美国东部时间凌晨 3:48 的峰值,当时报告了约 5,800 份报告。
AWS 在其状态页面更新中表示,其计算服务 Lambda 由于内部子系统问题而出现错误。“我们正在采取措施恢复这个内部 Lambda 系统。”
AWS 早些时候表示,此次中断的根本原因是底层子系统,该子系统监控其网络负载均衡器的健康状况,用于在多个服务器之间分配流量,以确保提高性能和容量。
AWS 表示,该问题源于“EC2 内部网络”。
EC2 指的是亚马逊的“弹性计算云”服务,它在 AWS 内部提供按需云容量。企业使用 EC2 运行开发、启动和托管应用程序所需的虚拟服务器,并可以根据需要扩大或缩小容量。
AWS 在其状态页面更新中表示,解决 EC2 系统相关问题的措施已使一些数据中心出现了一些早期恢复的迹象。
AWS 补充说,该公司正在其余地点采取类似措施,预计问题将会消退,但并未提供具体的时间表。
虽然有些应用程序,例如 Reddit (RDDT.N),打开新标签页以及 Roblox (RBLX.N),打开新标签页根据中断跟踪网站 Downdetector 的数据,包括 Snapchat (SNAP.N)在内的其他应用程序的故障已基本稳定,打开新标签页、PayPal (PYPL.O),打开新标签页Venmo 和 Duolingo (DUOL.O),打开新标签页,显示出当天早些时候出现的问题再次出现。
问题源于之前发生过中断的 AWS 站点
AWS 为企业、政府和个人提供计算能力、数据存储和其他数字服务,是全球最大的云提供商,其次是微软(MSFT.O),打开新标签页Azure 和 Alphabet (GOOGL.O),打开新标签页谷歌云。
其服务器中断可能会导致依赖其云基础设施的网站和平台(从食品配送应用程序到游戏平台和航空系统)中断。
AWS 在其状态页面上表示,周一的中断源于其位于弗吉尼亚州北部的 US-EAST-1 数据中心,这是其历史最悠久、规模最大的 Web 服务中心。该数据中心曾在 2021 年和 2020 年发生过中断。
根据 AWS 网站上的文档,US-EAST-1 站点通常是许多 AWS 服务的默认区域。
当路透社要求置评时,AWS 将记者引导至其状态页面。亚马逊尚未回应置评请求。
“脆弱的基础设施”
专家和学者表示,这个问题凸显了日常数字服务的互联程度以及它们对少数全球云提供商的依赖,一个小故障就会对商业和日常生活造成严重破坏。
欧洲网络安全公司 ESET 的全球网络安全顾问杰克·摩尔 (Jake Moore) 表示:“这次中断再次凸显了我们对相对脆弱的基础设施的依赖。”
在英国,劳埃德银行(LLOY.L),打开新标签页、苏格兰银行和电信服务提供商沃达丰(VOD.L),打开新标签页和英国电信(BT.L),打开新标签页根据 Downdetector 的英国网站,所有网站均受到攻击,英国税务、支付和海关当局 HMRC 的网站也受到攻击。
萨里大学计算机科学系研究主任 Nishanth Sastry 表示:“造成这一问题的主要原因是所有这些大公司都只依赖一项服务。”
Downdetector 的母公司 Ookla 表示,超过 400 万用户报告了因该事件而出现的问题。
保险经纪公司 McGill and Partners 的美国网络业务负责人瑞安·格里芬 (Ryan Griffin) 表示:“对于大型企业来说,数小时的云停机意味着数百万美元的生产力和收入损失。”
从 Snapchat 到 Venmo:服务中断导致应用程序瘫痪
Ookla 表示,至少有一千家公司受到此次停电的影响。
Snapchat 上次在 Downdetector 上收到超过 7,500 份报告,低于超过 22,000 份的峰值,但仍高于美国东部时间上午 7:00 左右的 4,000 起中断事件。
人工智能初创公司 Perplexity、加密货币交易所 Coinbase (COIN.O),打开新标签页和交易应用程序 Robinhood (HOOD.O),打开新标签页所有平台都经历了中断并将其归咎于 AWS。
亚马逊自己的服务,包括其购物网站、Prime Video 和 Alexa,也受到了影响,尽管 Downdetector 最新显示严重程度有所下降。
受影响的游戏平台包括Epic Games旗下的《堡垒之夜》以及《部落冲突》和《皇室战争》。Uber (UBER.N),打开新标签页竞争对手 Lyft (LYFT.O),打开新标签页在美国也被打倒了。
Signal 总裁梅雷迪斯·惠特克 (Meredith Whittaker) 在 X 的一篇帖子中证实,这款消息应用程序也受到了此次中断的影响,不过 X 的所有者亿万富翁埃隆·马斯克 (Elon Musk) 表示,他的平台仍在继续运行。
虽然没有迹象表明周一的断网事件可能由网络攻击造成,但断网的规模引发了人们的猜测。
网络安全公司 Sophos 威胁情报总监拉菲·皮林 (Rafe Pilling) 表示:“当发生这样的事情时,人们担心这是网络事件,这是可以理解的。”
“AWS 的业务范围广泛且错综复杂,因此任何问题都可能造成重大影响。”