Airpods

アマゾンは、数千のオンラインサイトやサービスに支障をきたしたAWSの障害の原因を詳細に説明した。

アマゾンは、数千のオンラインサイトやサービスに支障をきたしたAWSの障害の原因を詳細に説明した。

トッド・ビショップ

過去の AWS re:Invent カンファレンス。(GeekWire の写真)

アマゾンは週末の詳細な技術分析の中で、リアルタイムデータ処理サービス「アマゾン・キネシス」への「比較的小規模な容量追加」が先週、アマゾン・ウェブ・サービスの広範囲にわたる障害を引き起こしたと述べた。

この追加により「サーバー群内のすべてのサーバーがオペレーティングシステムの構成で許可された最大スレッド数を超えてしまった」と投稿では述べており、その結果生じた一連の問題により数千のサイトやサービスがダウンしたと説明している。

この障害は、Adobe、Roku、Twilio、Flickr、Autodeskといった大手テクノロジー企業のオンラインサービス、そしてニューヨーク市都市交通局(MTA)を含む多くのサービスに影響を与えました。AmazonのCEO、ジェフ・ベゾス氏が所有するワシントン・ポストも、この障害の影響を受けました。

これはAmazonにとって特にタイミングの悪い出来事だった。火曜日の朝にバーチャルイベントとして開幕する年次クラウドカンファレンス「AWS re:Invent」のわずか数日前に起きたのだ。信頼性は、Amazon、Google、Microsoftといったクラウド業界の主要企業の間で激しい議論の的となっているテーマであり、各社とも定期的に障害を経験している。

この説明は、Kenesis の問題が Amazon Cognito 認証サービス、CloudWatch 監視テクノロジー、Lambda サーバーレス コンピューティング インフラストラクチャ、およびその他の Amazon サービスに影響を与えたことから、クラウド サービスの相互依存性を強調しています。

「極めて短期的には、CPUとメモリをより大容量のサーバーに移行し、サーバーの総数を削減することで、フリート全体の通信に必要な各サーバーに必要なスレッド数を削減します」と同社は述べ、今回のインシデントから得られた教訓の一つを説明した。「これにより、各サーバーが維持しなければならないスレッド数の総量はフリート内のサーバー数に正比例するため、使用されるスレッド数に大きな余裕が生まれます。」

Amazonは謝罪し、今回の教訓を活かして信頼性をさらに向上させると述べました。「Amazon Kinesisの長年にわたる可用性の実績を誇りに思いますが、このサービス、そして影響を受けた他のAWSサービスが、お客様、お客様のアプリケーション、エンドユーザー、そしてお客様のビジネスにとっていかに重要であるかを認識しています。今回の事象から学び、可用性をさらに向上させるために、あらゆる努力を尽くします。」