亚马逊网络服务公司周五公布了对本周早些时候发生的长达数小时的故障的解释,此重大故障是在网络设备过载后开始的,该故障扰乱了其零售业务 和第三方在线服务。该公司还表示,它计划对其状态页面进行改造。
该公司说,亚马逊在弗吉尼亚州的大型数据中心US-East-1区域的问题是在美国东部时间周二上午10点30分开始的。
该公司在其网站上的一篇文章中写道:"为扩大托管在AWS主网络中的一项AWS服务的容量而进行的自动化活动,引发了内部网络内大量客户的意外行为。结果,连接亚马逊内部网络和AWS网络的设备变得过载”。
一些AWS工具受到影响。AWS的工程师努力解决这些问题,并在接下来的几个小时内恢复了服务。EventBridge服务可以帮助软件开发人员建立应用程序,对某些活动做出反应,但直到美东时间晚上9点40分才完全恢复。
AWS就此次故障对其客户造成的影响表示歉意。
受欢迎的网站和大量使用的服务都被中断,包括迪士尼+、Netflix和Ticketmaster。Roomba吸尘器、亚马逊的Ring安全摄像头和其他互联网连接的设备,如智能猫砂盒和应用程序连接的吊扇也因故障而被关闭。
亚马逊自己的零售业务在美国的一些地区陷入停滞。亚马逊的仓库和送货人员使用的内部应用程序依赖于AWS,因此在周二的大部分时间里,员工无法扫描包裹或访问送货路线。第三方卖家也无法访问用于管理客户订单的网站。
此外,客户在中断期间有七个小时无法创建支持案例。
AWS表示,它现在正在采取行动解决这两个问题。
"我们预计在明年初发布新版本的服务健康仪表盘,这将使我们更容易了解服务的影响,以及一个新的支持系统架构,该架构在多个AWS地区积极运行,以确保我们在与客户沟通时不会出现延误," AWS说。