
アマゾンはAWSの大規模障害について説明、従業員のミスでサーバーがオフラインになったと述べ、対策を約束
ナット・レヴィ著

アマゾンは、火曜日に同社のSimple Storage Service(S3とも呼ばれる)で大規模な障害が発生し、数時間にわたりウェブの大部分が麻痺した原因についての説明を発表した。
関連:AWSクラウドストレージ、人気サイトへの障害発生後オンラインに復帰
Amazonは、S3チームが課金システムの速度低下を引き起こしている問題に対処中であると述べました。Amazonによると、太平洋標準時午前9時37分に発生した障害について、以下のように説明しています。「S3チームの権限を持つメンバーが、既存のプレイブックを使用して、S3課金プロセスで使用されるS3サブシステムの1つから少数のサーバーを削除するコマンドを実行しました。しかし、残念ながら、コマンドへの入力値の1つに誤りがあり、意図していたよりも多くのサーバーが削除されました。」
これらのサーバーは他のS3「サブシステム」にも影響を与え、そのうちの1つは北バージニアのデータセンターにおけるすべてのメタデータと位置情報を管理していました。Amazonはこれらのシステムを再起動し、安全性チェックを実施する必要がありましたが、この作業には数時間かかりました。その間、これらのサーバーへのネットワークリクエストは完了できなくなりました。S3をストレージとして利用していた他のAWSサービスも影響を受けました。
問題が発生してから約3時間後、S3の一部が再び機能し始めました。太平洋標準時午後1時50分頃までに、すべてのS3システムが正常に戻りました。Amazonによると、これらのS3システムを完全に再起動する必要はここ数年なく、プログラムがそれ以来大幅に拡張されたため、再起動に予想よりも時間がかかったとのことです。
Amazonは今回の事象を受けて変更を実施し、S3システムの復旧時間を短縮することを約束しました。また、S3課金システムの速度低下などのメンテナンス作業において、チームがサーバー容量を過度にオフラインにしないよう、新たな安全対策も導入しました。
Amazonは、AWSの問題を追跡するために設計されたサービスヘルスダッシュボードにも変更を加えています。今回の障害により、サービスヘルスダッシュボードは数時間にわたって機能停止し、AWSはTwitterアカウントとページ上部のテキスト入力を通じて最新情報を配信せざるを得ませんでした。Amazonはメッセージの中で、サイトを複数のAWSリージョンに分散させる変更を行ったと述べています。
Amazon は次のようなメッセージで説明を締めくくっています。
最後に、今回の事象がお客様にご迷惑をおかけしたことをお詫び申し上げます。Amazon S3 の長年にわたる可用性の実績を誇りに思うとともに、このサービスがお客様、お客様のアプリケーション、エンドユーザー、そしてお客様のビジネスにとっていかに重要であるかを認識しています。今回の事象から学び、可用性のさらなる向上に活かすべく、全力を尽くしてまいります。
関連:アマゾンウェブサービスの障害は、インターネット全体の冗長性の重大な欠如を明らかにした
GeekWireが調査した複数の観測者は、今回の障害から得られた重要な教訓として、クラウドストレージの冗長性の必要性を指摘しました。この場合の冗長性とは、ある地域で障害が発生してもサイト全体が機能不全に陥らないようにデータを複数のリージョンに分散すること、あるいは複数のクラウドプロバイダーを利用することを意味します。
カリフォルニア州マウンテンビューに本社を置くウェブスケール・ネットワークスの製品担当副社長アナンド・ハリハラン氏は、アマゾンの小売ウェブサイトが火曜日の障害時にダウンしなかったのは、同社がすべての卵を一つのクラウドバスケットに入れていなかったためだと指摘した。
今週AWSで発生した甚大な被害をもたらした障害が示すように、すべての主要パブリッククラウドプロバイダーはダウンタイムを経験しており、あるいは今後経験するでしょう。実際、私たちのお客様、特にeコマース事業を営むお客様は、単一のクラウドプロバイダーや単一のリージョンに頼るだけでは不十分であることにますます気づいています。Amazon自身も、まさにこの考え方、つまりインフラストラクチャを複数のリージョンに分散することで、稼働と高速性を維持しています。数時間、いや実際には数分のダウンタイムは、企業にとって一生に一度の損失です。ダウンタイムは収益だけでなく、ブランドの評判や顧客の信頼にも悪影響を及ぼします。そのため、企業は今すぐマルチリージョン/マルチクラウド戦略を検討する必要があります。
火曜日の障害に対し、インターネット上では比較的陽気な反応が見られ、多くの人がこれを「デジタル雪の日」のチャンスと捉えていました。Amazonによる障害の説明は、同社の透明性を称賛する声もあれば、批判の声もありました。
https://twitter.com/chrisalbon/status/837367105557151744