Airpods

Microsoft Azure の火災システムの不具合は、透明性のあるクラウド障害レポートがなぜ誰にとっても有益であるかを示している

Microsoft Azure の火災システムの不具合は、透明性のあるクラウド障害レポートがなぜ誰にとっても有益であるかを示している

トム・クレイジット

ビッグストックフォト

多くのクラウド企業が発行する障害レポートは、弁護士が作成し、何が起こったのかを正確に説明することなどほとんど考えないエンジニアが文章化した、意味のない簡潔な内容になりがちです。この傾向に逆らったMicrosoft Azureの北ヨーロッパチームには称賛を送ります。

The Registerが報じたように、先週Azureの北ヨーロッパ地域の顧客に影響を与えた約7時間にわたる障害を受けてMicrosoftが発表した報告書は、クラウド顧客が障害報告書に期待すべき内容の典型例です。この地域のデータセンターの保守作業員が誤って消火剤を漏洩し、漏洩を封じ込めるためにデータセンターの稼働を維持している冷却装置が停止しました。その結果、「影響を受けた消火区域の隔離されたエリアの周囲温度が通常の運用パラメータを超えた」とMicrosoftは報告書で述べています。

サーバーとデータストレージユニットは、温度上昇を認識し、障害を防ぐためにシャットダウンまたは再起動するように設計されています。しかし、これらのユニットの一部は「制御された方法でシャットダウンしませんでした。その結果、影響を受けたリソースのトラブルシューティングと復旧に追加の時間が必要になりました」とMicrosoftは述べています。この障害により、Virtual Machines、Azure Backup、Azure Functionsを含む多くのサービスが数時間オフラインになりました。その後、Microsoftは、当該地域におけるすべてのワークロードを処理できる十分な数のサーバーとストレージユニットを再び稼働させることができました。

レポート全文はこちらでご覧いただけます。障害発生中に収益を失った方々は、包括的なレポートだけでは到底満足できないでしょう。しかし、クラウド利用者は、重大な障害が発生した場合、プロバイダーに対し、このレベルの詳細を要求するべきです。北ヨーロッパのレポートのページを下にスクロールし、過去数週間にAzureリージョンに影響を与えた他のレポートを読んでみてください。それほど詳細な情報ではありません。Amazon Web ServicesやGoogleも、サービスがオフラインになった理由を正確に説明する点では、ほとんど劣っていません。

障害の原因が人為的ミス、天災、あるいはその中間にあるにせよ、クラウドコンピューティングは人間によって、人間のために運営されています。こうした関係において信頼関係を築くことは、顧客維持のための有効な手段であり、詳細なレポートは、最先端のデータセンターであっても、常時接続のクラウドコンピューティングを大規模に実現することは極めて困難であることを顧客に改めて認識させる良い機会となります。