Ipad

Amazon Web Servicesの米国東部地域で大規模な障害が発生し、AlexaやAtlassianの開発ツールが利用できなくなった

Amazon Web Servicesの米国東部地域で大規模な障害が発生し、AlexaやAtlassianの開発ツールが利用できなくなった

トム・クレイジット

(Pixabay写真 / cc0)

Amazon Web Services の Direct Connect サービスに問題が発生したため、金曜の朝、同社の Alexa パーソナルアシスタントを含む、このクラウドリーダーの不安定な米国東部リージョンを使用する複数の顧客がダウンした。

問題は太平洋標準時午前7時30分頃に発生し、本稿執筆時点では未解決です。AWSはその頃、ステータスページに「米国東部1リージョンの一部AWS Direct Connectのお客様に影響を与える可能性のあるパケットロスの増加について調査中です」と記載し、午前中を通して、問題はCoreSiteとEquinixがそれぞれレストンとアッシュバーンで運営するバージニア州北部のデータセンターにおける接続の問題であると特定しました。

AWS Direct Connectは、ハイブリッドクラウドのお客様がAWSインフラストラクチャとお客様のオンプレミスインフラストラクチャ間の安全な接続を確立するために利用されます。これは、パブリックインターネット経由でAWSに接続するよりも高速かつ低コストであることが多いです。

障害の最も顕著な兆候は、AmazonのAlexaデジタルアシスタントが金曜日の朝、長時間にわたってダウンし、AmazonのスーパーボウルCMを意図せず再現してしまったことです。確かに煩わしいかもしれませんが、この障害はJIRAやBitbucketといったAtlassianの開発ツールのユーザーに深刻な問題を引き起こしており、Capital Oneの顧客はアカウントにアクセスできないことに不満を漏らしました。

両社がどのようにサービスを構築していたかは正確には不明ですが、AWSは一般的に、今回のような問題が発生した場合に備えて、ワークロードを複数のアベイラビリティゾーンに分散して設定することを顧客に推奨しています。しかし、Alexaがダウンした理由はこれでは説明できません。

午前11時更新:午前10時30分、AWSはステータスページを更新し、バージニア州北部におけるAWSインターネット接続に「ネットワーク設備の停電」による同日早朝の別の問題が発生したことを認めました。ワシントンD.C.地域では金曜日の朝に非常に強い突風が吹いており、これが原因である可能性があります。

ステータスページによると、AWS Direct Connectの問題は未解決のままです。しかし、Atlassianは以前の問題からの回復が始まっていると述べています。

クラウドプロバイダーであるAWSの復旧が進んでおり、Atlassian製品およびサービスもそれに伴って回復しています。引き続き状況を注視し、ステータスページ(https://t.co/pR95HIdc3m)で最新情報をお知らせします。

— アトラシアン(@Atlassian)2018年3月2日

更新 午前 11 時 26 分: AWS は Direct Connect の問題が解決したと発表しましたが、その問題が地域の停電にも関連しているかどうかについては詳しく説明しませんでした。