
アマゾンはサービス停止について謝罪し、通信の大幅な改善を約束
ジョン・クック著
Amazon.comは、先週発生したElastic Block Storeの障害で被害を受けた顧客に正式に謝罪し、影響を受けたかどうかに関わらず10日間のクレジットを提供すると発表しました。これはAmazonのクラウドコンピューティングサービスへの信頼を回復するのに十分でしょうか?まだ判断するには時期尚早かもしれませんが、Amazonの事後分析は正しい方向への一歩と言えるでしょう。
同社は長文の説明文で次のように書いている。
当社のサービスがお客様のビジネスにとっていかに重要であるかを認識しており、今回の出来事から学び、サービス全体の改善に活かすために全力を尽くします。他の重大な運用上の問題と同様に、今後数日から数週間にかけて、今回の出来事の様々な側面について詳細な理解を深め、サービスとプロセスを改善するための変更点を模索していきます。
先週の障害発生時、Amazon.comに対する最大の批判の一つは、何が起こっているのかという透明性の欠如でした。これは、BigDoorのCEOであるキース・スミス氏がGeekWireに寄稿した「Amazon.comの真の問題は障害ではなく、コミュニケーションにある」というゲスト投稿で強調されました。
アマゾンは、問題が発生したときのコミュニケーションフローを改善する計画があると述べているので、顧客の怒りを読み取って(少なくとも聞いて)いたのかもしれない。
今回の事象から得られる技術的な知見と改善に加え、お客様とのコミュニケーションにおいても改善が必要な点が明らかになりました。コミュニケーションをより頻繁に、そしてより多くの情報を含むものにしたいと考えています。障害発生時には、お客様が何が起こっているのか、復旧にどれくらいの時間がかかるのか、そして再発防止のために私たちがどのような対策を講じているのかなど、できるだけ多くの詳細情報を知りたいとお考えであることは理解しています。
メッセージには、何が問題だったのかという技術的な詳細も記載されています。以下にその一部をご紹介します。
このイベントの初期段階で、この EBS クラスターの状況がさらに悪化した要因は 2 つあります。まず、新しいノードを見つけられなかったノードは、スペースが見つからなくても十分に積極的にバックオフせず、繰り返し検索を続けました。また、EBS ノードのコードには競合状態があり、非常に低い確率で、大量のレプリケーション要求を同時に閉じているときにノードが故障する原因となっていました。正常に動作している EBS クラスターでは、この問題によってノードがクラッシュすることはほとんど、あるいは全く発生しません。しかし、この再ミラーリング ストームの発生中は、接続試行の量が極めて多かったため、この問題がより頻繁に発生するようになりました。このバグが原因でノードに障害が発生し始め、再ミラーリングが必要となるボリュームが増えました。これにより、「スタック」したボリュームが増加し、再ミラーリング ストームへのリクエストが増加しました。
私には理解できないかもしれませんが、聴衆の中にコンピューター科学者の方がいれば、もっと詳しい見解を述べてくれるかもしれません。メッセージ全文はこちらです。
GeekWireの以前の記事:「ジェフ・ベゾス氏、株主に語る:発明は私たちのDNA」