Azure 挂了：云被雷击垮了；已持续 22 个小时

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Recommended Services

› Amazon Web Services

› LeanCloud

› New Relic

› ClearDB

这是一个创建于 2278 天前的主题，其中的信息可能已经有所发展或是发生改变。

微软公司的 Azure 公共云近日算是被真正的云搞垮了，因为该公司将周二导致美国用户无法正常使用几项服务的一起故障归咎于“恶劣天气”。

微软表示，位于得克萨斯州的美国中南部数据中心遭到了雷电风暴，结果散热系统出现了故障，迫使该公司关闭了许多服务器和系统，以防遭到更严重的损坏。

微软在 Azure 状态页面上的一份声明中表示：“美国中南部的数据中心附近发生了一起恶劣的天气事件，包括雷击。这导致电源电压升高，从而影响了散热系统。确保数据和硬件完整性的自动化数据中心程序立即生效，关键硬件进入了有条不紊的断电过程。”

开始故障时 Azure 状态页面甚至一度无法打开：

散热系统是现代数据中心的一个重要组成部分，因为散热系统是消除在一个封闭的地方紧密堆叠在一起的成千上万台服务器产生的高温所必不可少的。简而言之，如果这个系统出了故障，所有系统都将随之停运。

因此，如果温度上升到超过安全水平，像微软这样的公司落实了自动关闭数据中心机器的程序。这是保护微软数据中心投资的重要措施，但是对云客户来说也带来了很大的不便。

微软提到的恶劣天气很可能与飓风戈登有关，这场 1 级风暴目前正在得克萨斯州海岸的附近兜转。

微软表示，这起故障已影响了许多 Azure 云服务，包括 Visual Studio Team 服务。停运的其他服务包括 Azure Active Directory 身份管理服务和基于云的生产力套件 Office 365。

Visual Studio Team Services 小组补充道：“由于一些内部基础设施依赖 Azure 云服务，美国中南部地区以外的企业组织的客户所用的持续集成 /持续交付（ CI/CD ）工作流程和仪表板也可能受到了影响。”

专家们表示，这一事件向使用云服务的企业组织敲响了警钟：说到运行云端的关键工作负载，只有傻瓜才会依赖单单一家提供商。

Mimecast 有限公司的网络弹性专家彼得•班纳姆（ Pete Banham ）说：“今天 Azure 发生的事件再一次清楚地表明，企业组织需要做好自己的冗余机制，而不是依靠单单一家提供商。”

Constellation 研究公司的首席分析师兼副总裁霍尔格•米勒（ Holger Mueller ）表示，不过，该事件也给了希望避免将来发生此类事件的微软一个深刻的教训。

米勒说：“这次事件深刻地提醒人们，即使对于像微软这等规模的 IaaS 提供商来说，要保持数据中心正常运行有多难。闪电、洪水、飓风、大雪和暴雨都会影响数据中心的可用性。所以一个关键的问题是，微软从中汲取了什么教训？它如何在将来能避免类似的故障？这给了希望加强云基础设施的公司一个深刻的教训。”

在发布的最新消息中，微软表示它在努力使所有受影响的服务重新上线，不过截止本文发稿时，这项工作显然仍在进行之中。

微软表示：“工程师已成功地恢复了数据中心的电源。此外，工程师已恢复了大部分受影响的网络设备。虽然一些服务开始出现了恢复如初的迹象，但抢救工作仍在进行之中。”

文章来源：云头条微信公众号

这个。。。不应该是多地域部署的么，还能出现这样的情况？

Azure

微软

故障

数据

14 条回复 • 2018-09-12 13:32:19 +08:00

SilentDepth

2018-09-05 18:11:29 +08:00 via iPhone

所以为什么微软要研发海底机房 233333

FONG2

2018-09-05 18:16:51 +08:00

@SilentDepth 海底地震海难

ddou

2018-09-05 19:06:24 +08:00 via iPhone

Mimecast 有限公司的网络弹性专家彼得•班纳姆（ Pete Banham ）说：“今天 Azure 发生的事件再一次清楚地表明，企业组织需要做好自己的冗余机制，而不是依靠单单一家提供商。”

冗余和单一 vendor 有什么关系？这位专家也不靠谱呀

1yndonn3u

2018-09-05 19:07:41 +08:00

@ddou #3 可能是说让使用 az 云的同学，也把一部分云服务部署在 aws 上吧，2333

比如，在国内，可能是一部分服务在阿里云，一部分在百度云吧 23333

timothyye

2018-09-05 19:11:45 +08:00 via Android

看了一下我东南亚的 azure，还好没事

opengps

2018-09-05 19:44:45 +08:00 via Android

仅仅是这个机房关闭吧，这其实就是同城灾备不够用的情况了，异地多活系统没有明显影响
怎么高可用，取决于系统设计，而不仅仅是软件放在某一个地方

rexyan

2018-09-05 19:50:53 +08:00 via iPhone

鸡蛋不要放在一个篮子里

loveour

2018-09-05 21:32:53 +08:00

@1yndonn3u #4 +1。其实每一家云服务商都出过问题，如果可用性要求特别高，还是要多家多地才行。

hcymk2

2018-09-05 21:58:20 +08:00

我是云，雷电是我的亲戚

qiuqiuer

2018-09-05 23:16:05 +08:00 via Android

还是研究冥界机房吧，地球上很危险

rajiha

2018-09-05 23:29:02 +08:00 via Android

前几天 MS 骨干网还炸过，丢包率 96 ％

ryd994

2018-09-06 10:18:02 +08:00 via Android

不要方，主要是影响内部服务
一个数据中心好几个机房呢，挂的是一个机房
不在这个机房的客户 VM 也不受影响
天灾挂一两个机房一点都不奇怪

1yndonn3u

2018-09-07 10:14:11 +08:00

@rajiha #11 骨干网丢这么多，没办法使用了吧。持续的时间长的话，年度 sla 都不能达标了。

不过，反正也就是赔偿一些时长，对他们来说无所谓了。。

hpayton

2018-09-12 13:32:19 +08:00

@SilentDepth 海底机房更不成熟，海底离地震带更近，发生危险的概率更高