Vision

Netflixの悪夢を解説:Amazonがサービス停止について謝罪

Netflixの悪夢を解説:Amazonがサービス停止について謝罪

トッド・ビショップ

クリスマスイブにNetflixストリーミングサービスが数時間にわたって停止したのは、Amazon Web Servicesで何が起きたのでしょうか? 人為的ミスとアクセス制御の欠陥が重なったことが原因です。AWS開発者がAWS Elastic Load Balancingサービス内の重要なデータセットを誤って削除したことが、サービスの停止を引き起こしました。

これは、クリスマスイブに Amazon 社内で何が起こったかを詳しく説明した AWS の投稿で述べられた言葉です。

投稿では、障害について謝罪し、根本原因を説明しています。「本番環境のELB状態データに対して誤って実行されたメンテナンスプロセスによって、データが削除されました。このプロセスは、本番環境にアクセスできるごく少数の開発者の1人によって実行されました。残念ながら、開発者は当時、このミスに気づきませんでした。」

翻訳: Amazon Web Services の誰かが、あまり良いクリスマスの日を過ごせなかったようです。

この障害が注目を集めた理由の一つは、アマゾンがオンラインのままだったインスタントビデオストリーミングサービスを通じてNetflixと個別に競合していることである。

アマゾンの投稿ではNetflixの名前は挙げられていないものの、今後同様の事態を防ぐためにアマゾンが講じている対策について説明されており、不注意による変更を防ぐため、ライブデータへのアクセスを厳格化するなどしている。また、今後同様のミスが発生した場合、より迅速に修正できるようになると述べている。

「最後に、そして何よりも大切なことですが、お詫び申し上げます」と投稿には記されています。「当社のサービスがお客様のビジネスにとっていかに重要であるかを認識しており、今回の障害は一部のお客様にとって都合の悪いタイミングで発生したことを認識しています。今回の出来事から学び、ELBサービスのさらなる改善に活かすために、私たちはあらゆる努力を尽くします。」

別の投稿で、Netflixのクラウドアーキテクトであるエイドリアン・コッククロフト氏は、Netflixも同様の事態の再発を避けようとしていると述べています。彼は次のように書いています…

クラウドイノベーションはまだ初期段階であり、クラウドのレジリエンス(回復力)構築に関しては、まだまだ取り組むべき課題が山積しています。2012年には、Netflixを複数のAWSリージョンで運用する検討を開始し、こうした変更に必要な複雑さと投資額をより正確に把握することができました。

2013 年にこれに取り組む予定です。広範囲にわたって複製する必要のあるデータが大量に存在し、地域間のトラフィックの切り替えに関係するシステムは極めて信頼性が高く、過負荷による連鎖的な障害を回避できなければならないため、これは解決するのが興味深い難しい問題です。

全体的に見て、これは Netflix や AWS が 2012 年を締めくくりたかった方法ではありませんでした。