
レポート:コロラド州でネットワークカードの不具合によりCenturyLinkに大規模な障害発生
レポート:コロラド州でネットワークカードの不具合によりCenturyLinkに大規模な障害発生

コロラド州ブルームフィールドにある CenturyLink データセンター。(CenturyLink の写真)
トム・クレイジット著

顧客への通知によると、センチュリーリンクのクラウドネットワークで広範囲にわたる障害が発生し、ほぼ2日間続き、ワシントン州およびその他の州の緊急電話サービスに支障をきたしたが、これはネットワーク管理カードの故障が原因であった。
ベテランセキュリティジャーナリストのブライアン・クレブス氏は、土曜日にセンチュリーリンクの「主要顧客」に送られた通知のコピーを自身のTwitterフィードに投稿した。その通知では、コロラド州のデータセンターのカードが「デバイス間で無効なフレームパケットを伝播」し、一連の問題を引き起こし、同社がネットワーク機器の多くを再起動せざるを得なくなったと説明されていた。センチュリーリンクが最初に問題を認識してから土曜日の朝に警報解除を発令するまでには2日以上かかった。その間、ワシントン州を含む複数の州で911番サービスがダウンしたり、不安定になったりしていた。
CenturyLinkの代表者は、この通知を確認する要請にすぐには応じなかった。
現代のクラウドサービスプロバイダーの基準からすると、2日間の停止は永遠に等しい。クラウドプロバイダーがシステムに構築している多層的な冗長性を考えると、たった1台の機器がどのようにしてこれほど大規模な停止を引き起こすのかは不明だ。
障害に関するFCCの調査で何らかの答えが見つかるかもしれないが、CenturyLinkが障害に関するより詳細な事後分析を発表する意思がない限り、それは変わらないだろう。事後分析はインシデント対応の標準的な手順になりつつある。