Airpods

マイクロソフトは先週発生したAzureの大規模障害の詳細を発表した。サーバーは損傷したが、データは失われなかった。

マイクロソフトは先週発生したAzureの大規模障害の詳細を発表した。サーバーは損傷したが、データは失われなかった。

トム・クレイジット

ワイオミング州シャイアンにあるマイクロソフト データ センターの内部。(Microsoft Photo)

先週サンアントニオ地域で発生した激しい雷雨により、同地域にある Microsoft Azure データセンターへの電力供給が中断されただけでなく、冷却システムがオフラインになり、「相当量」の機器が損傷した。

Microsoft Azureの米国中南部データセンターリージョンは先週、長時間にわたりダウンしていましたが、同社は現在、顧客向けに詳細な情報を発表し、何が起きたのかを説明しました。この障害は、当該データセンターでワークロードを使用しているすべてのユーザー、およびActive DirectoryとVisual Studio Team Servicesをご利用の世界中のお客様に24時間以上にわたり影響を及ぼし、その後完全に復旧しました。

テキサス州では雷雨は日常茶飯事ですが、今回の雷雨は規模が大きくゆっくりと移動し、サンアントニオの降雨記録を7インチ(約18cm)以上も塗り替えました。現地時間深夜、「雷が公共供給網に電気的な活動を引き起こした」とマイクロソフトは述べています。これにより電圧が上昇し、データセンターの一部がバックアップ発電機に切り替わりましたが、何らかの理由でその部分の冷却システムにも過負荷がかかり、停止してしまいました。

データセンターにおいて、サーバーの次に最も重要なのは冷却装置です。数千台ものサーバー、ストレージ、ネットワーク機器は大量の熱を放出するため、アクティブな冷却システムがなければ、限られたエリアはすぐに過熱状態になる可能性があります。

オレゴン州ダレスにあるGoogleデータセンターの上には冷却塔が設置されている。(GeekWire Photo / Tom Krazit)

このケースでは、温度上昇が検知されると機器のシャットダウンが開始されましたが、「データセンターの一部で温度が急激に上昇したため、シャットダウンする前に一部のハードウェアが損傷しました。多数のストレージサーバーに加え、少数のネットワーク機器と電源ユニットも損傷しました」とマイクロソフトは報告書で述べています。

マイクロソフトによると、エンジニアは顧客を別のデータセンターに移すのではなく、顧客データの保存を優先することにした。顧客を別のデータセンターに移すと、「地理的レプリケーションの非同期性により」一部のデータが失われる可能性があったからだ。

マイクロソフトがこれほど詳細な情報を提供してくれたことに改めて感謝します。お客様にはこれ以上の対応は望んでおらず、停電の原因を理解することは、誰もがより良い状況を築くことにつながります。サージサプレッサーを装備していたとされる冷却システムが、電圧上昇によってなぜ機能不全に陥ったのかは、依然として不明です。しかし、データセンター周辺に落雷が発生するのは、Project Natickを除けば、これが最後ではないでしょう。

しかし、ライバルのAmazon Web Services(AWS)は、ハリケーン・フローレンスがカロライナ州に迫る中、地域内の単一データセンターで問題が発生した場合のリスクを軽減するためにクラウド顧客に提供しているアベイラビリティゾーンを強調し、さりげない反撃を繰り出しました。AWSは、ハリケーンの影響が予想されるバージニア州北部に最大のリージョンである米国東部を運営しています。

AWSは火曜日のブログ投稿で、「発電機、UPSユニット、空調設備といった共通の障害点は、アベイラビリティゾーン間で共有されていません」と述べています。「電力システムは完全な冗長性を持つように設計されており、業務に影響を与えることなくメンテナンスが可能です。」

Microsoftは、世界中のクラウドリージョン内でアベイラビリティゾーンの展開をつい最近開始しました。米国では、アベイラビリティゾーンを提供しているリージョンは米国中部のみで、Microsoft Azureのドキュメントによると、「リージョン内でアベイラビリティゾーンを物理的に分離することで、アプリケーションとデータをデータセンターの障害から保護します」とのことです。アベイラビリティゾーンは、米国中南部リージョンにも遅かれ早かれ導入されるでしょう。