AWS:云服务故障频发_巅云自助建站
author:一佰互联 2019-04-25   click:179

亚马逊Web stores在美国和加拿大的服务出现了长达30分钟的故障,造成了约4500万美金的损失,该事件发生的6天后,本周日某些地区的亚马逊Web Services的服务又一次出现了故障。

AWS:云服务故障频发

AWS:云服务故障频发

此次故障持续了约一个小时,包括Facebook的Instagram,以及Twitter的Vine和Airbnb等应用程序都受到了影响。

亚马逊认为发生此次故障是因为一个网络设备被替换,进而导致了数据包丢失。

亚马逊Web Services服务健康信息中心指出,亚马逊在北弗吉尼亚州的“弹性计算云服务”及其相关的数据库服务也会受到影响。

Artisan Infrastructure的首席执行官Brian Hierholzer表示:“我认为,亚马逊的共享系统才是致使所有用户受害的结构漏洞。”

Clabby Analytics的总裁Joe Clabby指出,在类似亚马逊这样的大型分布式系统中,不良的网络和系统设计往往会成为系统的瓶颈。

事件详情

亚马逊的服务健康信息中心表明,其Elastic Block Store(持久数据块级存储)服务在北弗吉尼亚州也出现了问题。 亚马逊指出,其中一些EBS存储卷的性能大幅下降,且在美国东1区的亚利桑那州,与EBS相关的API和基于EBS的实例也发生了错误。这些问题都起因于网络数据包丢失。

同样在北弗吉尼亚州,亚马逊的 Elastic Load Balancing(弹性负载均衡)服务和Relational Database Services(关系数据库服务)还遭遇了连接故障的问题。

最终,所有这些问题都得到了修复,但亚马逊并没有披露相关的具体细节。

蹒跚成长

Amazon Web Services(亚马逊网络服务)是业内最大的云计算供应商;Gartner估计,在业内前15名提供商中,亚马逊的规模是其余14位提供商总和的5倍。

为何亚马逊的服务会接连遭遇故障问题令人百思不得其解。

仅在2012年,其北弗吉尼亚州数据中心就发生了4次重大故障,而该数据中心是亚马逊数据处理量最大的综合设施。

Amazon表示,最新发生的故障是由于一名开发人员无意间删除了某些关键数据,而此次故障也影响亚马逊的ELB服务。

平衡负载是亚马逊服务的关键–它能够平均分配不同服务器之间的工作负载,以防止服务器因负载过重而崩溃。

尽管如此,Pund-IT的首席分析师Charles King表示: “之前所发生的故障从未减慢过AWS的使用速度,所以也许亚马逊的客户会因此认为他们所获得的使用价值可以抵消亚马逊差劲的可靠性和服务质量。”

猜测起因

有些人将怀疑的矛头指向了美国国家安全局(NSA)的监管,他们认为正是NSA的程序造成了多次的服务故障和崩溃,但Artisan Infrastructure的首席执行官Hierholzer表示:“这种情况发生的几率非常低。”其他人认为也有可能是因为有大量不明人士企图访问亚马逊的服务,并发起分布式拒绝服务(DDoS) 攻击。

Hierholzer 建议:“我们必须设立更多的故障域和途径来隔离这些服务提供商及其消耗的资源。”

发生故障的原因也可能是因为亚马逊对其服务的投资日益缩减了。据报道,自2005年以来,该公司在实际和虚拟的创收型IT资产上的投入为约120亿美元,而相比之下,微软则花费了近180亿美元,Google在此方面的投资高达近210亿美元。

Clabby Analytics的总裁Clabby表示:“如果您正在开展大规模的业务,那么您可能不会构建足够的冗余。因为您觉得如果一台服务器掉线了,您可以立即插入另一台服务器且不会发生任何故障。”

另一方面,亚马逊的服务问题主要在于其网络。

Tirias Research的首席分析师Jim McGregor表示:“在复杂的网络中,造成故障发生的原因有很多,其中也包括服务器,总之没有一个网络是十全十美的。因此,作为通信供应商,您必须按要求构建更多的冗余。”

更多内容推荐:>>>中国域名连续两次遭遇DDoS攻击