
Amazon Web Servicesの障害により、インターネット全体の冗長性の重大な欠如が明らかになった

アマゾン ウェブ サービスが、火曜日にインターネットの大部分を麻痺させた Simple Storage Service (略して S3) の問題を修正したため、デジタル雪の日は終わった。
関連:アマゾンはAWSの大規模障害について説明、従業員のミスでサーバーがオフラインになったと述べ、対策を約束
火曜日の太平洋時間午前9時30分過ぎから5時間近くにわたり、S3クラウドストレージサービスで「高エラー率」が発生し始めました。この障害により、Expedia、Slack、Medium、米国証券取引委員会など、AWS上で稼働する多数のウェブサイトやアプリへのアクセスが遮断されました。この障害は、障害やイベントを表示するAWSサービスヘルスダッシュボードにも一時的に影響を及ぼしました。
ダッシュボードの色が変化しないのは、S3 の問題によるものです。最新情報については、ダッシュボード上部のバナーをご覧ください。
— Amazon Web Services (@awscloud) 2017年2月28日

アマゾンは、高いエラー率の原因について詳細を明らかにしていない。サンフランシスコに拠点を置くネットワークインテリジェンス企業ThousandEyesの製品マーケティング担当シニアディレクター、ニック・ケファート氏は、障害発生から1日を通して監視を行っていた。ケファート氏によると、情報はアマゾンのネットワーク全体に侵入できたものの、S3サーバーとのネットワーク接続を確立しようとすると壁にぶつかるような状況だったという。すべてのトラフィックが停止したため、S3にデータ、画像、その他の情報をホストしていたすべてのサイトやアプリが影響を受けたという。
ケファート氏はAmazonのサーバーにアクセスできないため、S3サーバーに接続できなくなった理由を説明できなかった。人為的なミスなのか、インフラの障害なのか、設定の問題なのか、自動化の問題なのかは不明だとケファート氏は述べた。しかし、障害の規模が拡大していることを考えると、かなり複雑な障害だったのではないかとケファート氏は推測している。
「システムが完全に誤作動を起こしたのではなく、インフラのより深いところに何か問題が起きたのです」とケファート氏は語った。
関連:AWSクラウドストレージ、人気サイトへの障害発生後オンラインに復帰
ThousandEyes は、停止の範囲と AWS ネットワーク内のすべてのやり取りを示すこの視覚化も作成しました。
障害がこれほど広範囲に及んだ理由としては、Amazonが40%以上の市場シェアを誇るクラウドの王者という地位が挙げられます。ケファート氏によると、AWSのプログラムは互いに連携して構築されているため、S3のダウンが他のサービスにも影響を及ぼすことも要因の一つです。
「Amazon Web Servicesは、多くの個別のサービスを、互いに積み重なった構成要素の上に構築しています」とケファート氏は述べた。「S3はAWSの非常に基本的な構成要素の一つです。S3に障害が発生すると、他の多くのサービスも同時に障害が発生します。なぜなら、それらはすべてS3上に構築されているからです。」
問題は解決した今、今回の障害から何を学べるかが問われます。GeekWireが調査した複数の専門家は、今回の障害から得られる最も重要な教訓はクラウドストレージにおける冗長性の必要性だと述べています。

オーランドに拠点を置くウェブエクスペリエンスプラットフォームSolodevのCTO、ショーン・ムーア氏は、あらゆるテクノロジーはいつかは機能不全に陥ると述べた。火曜日の障害ではインターネットの広範囲がダウンしたが、他のサイトやアプリは中断しなかった。それらのサイトやアプリは、データが複数の地域に分散していたためだ。
「ウェブサイトのデータを複数のリージョンに分散するというAmazonの設計理念を全面的に受け入れた企業は、準備ができていました」とムーア氏は述べた。「これは、AWSや他のプロバイダーでホスティングされている企業にとって、自社のインフラ構成を深く検討し、冗長性の必要性を改めて認識させる警鐘となるでしょう。AWSは冗長性という機能を提供していますが、実際に活用している企業がいかに少なかったかが、今になって明らかになっています。」

ボストンに拠点を置き、AWS、Microsoft Azure、Google Cloudなどのクラウドストレージプロバイダーへの企業データ移行を支援するクラウドテクノロジーパートナーズのシニアバイスプレジデント、デビッド・リンシカム氏。リンシカム氏は、今回の障害は単発的なインシデントであり、時折起こるものだと述べた。
「システムは故障するし、クラウドも時々故障する」と彼は述べた。「アマゾンが迅速に復旧し、業務を再開できるかどうかが真の試金石となるだろう」と彼は語った。
リンシカム氏はさらに、火曜日の障害によって人々がクラウドストレージを利用できなくなるとは思わないと述べた。
「Amazon Web Servicesやその他のパブリッククラウドプロバイダーは、自社の運用をほぼ完璧に管理しています」と彼は述べた。「確かに、企業よりもはるかに優れています。」
専門家は、冗長性を高め、異なる地域の複数のセンターでデータをホスティングすることに加え、複数のクラウドプロバイダーを利用してデータを保存することも重要だと強調しました。これにより、システム全体の障害から顧客を保護できるだけでなく、コストに応じてプロバイダーを切り替えることも可能になります。

マイクロソフトの元主任プログラムマネージャーで、NanSoft Studios の創設者であり、政府の申請追跡サイト SECGems の制作者でもある Akash Nankani 氏は、火曜日の AWS の障害のようなインシデントが長期間続いた場合でも、AWS への依存を排除する変更をすぐに行えるように、自社の製品を「プロバイダーに依存しない」ものにしようとしていると述べた。
「私の考えでは、すべての企業は次のような質問を自問すべきです。『もし明日、Amazon(あるいはあなたが利用している他のプロバイダー)が、何らかの理由(正当な理由か正当な理由かを問わず)で、私のアカウントまたはビジネスを禁止/ブラックリストに登録した場合、どう対処するだろうか?いつまでに回復できるだろうか?そして、実際に起こる前に、このシナリオを事前にテストしただろうか?』」
Amazon、Microsoft、Google、IBM Bluemix、OVHなどを高く評価しており、それらすべてを使用/実験してきましたが、事業継続性の観点からは、「マルチリージョン」よりも「マルチプロバイダー」サポートへの投資の方が重要だと考えています。これには、プロバイダー/リージョンの障害に対処できるだけでなく、最も低コストのプロバイダーに動的に切り替えられるというメリットもあります。