
1週間後、メルトダウンとスペクターのチップ欠陥の長期的な影響がより明らかになり始めている。

クラウドユーザーとデータセンター管理者は、週末にかけて、Meltdown/Spectreチップの脆弱性に対応するパッチによるパフォーマンスへの影響を理解し始めました。当初の30%への影響という懸念は誇張されていたようですが、ハードウェアから期待していたすべてのパフォーマンスが得られていないことに気づき、次に何をすべきか悩んでいるユーザーは少なくありません。
データセンター内のほぼすべてのチップの脆弱性に対処するために必要なパッチの影響は、Intelとクラウドベンダーが先週、MeltdownとSpectreの脆弱性の公表を受けてパッチを公開した際に予測したように、必ずしも普遍的ではないようだ。昨年夏に初めて発見されたこれら2つのハードウェア脆弱性は、最新のプロセッサの設計上の欠陥に起因するもので、悪意のあるハッカーが機密データを読み取ったり、共有サーバー上で実行されている他のアプリケーションを盗聴したりする可能性があります。
いわゆるビッグITベンダーの群れは、ワークロードの種類に応じてオペレーティングシステムや仮想化ソフトウェアに一定のオーバーヘッドを追加するパッチが、広範囲にわたるパフォーマンス問題を引き起こすことはないと顧客に保証しようと躍起になった。CloudflareのCTOとして大規模なサーバーネットワークを統括するジョン・グラハム=カミング氏の報告によると、概ねその通りのようだ。
https://twitter.com/jgrahamc/status/949252936814747648
しかし、インフラ戦略の有効性が1~20%低下しているという事実について、どう対処すべきかを議論するために今週会議を開く人々が間違いなくいる。
技術パフォーマンスに関する実際の情報を入手するのは驚くほど難しい場合があります。その理由の 1 つは、複雑な技術インフラストラクチャ間でパフォーマンスがかなり異なる場合があり、同じ業界向けに設計されているものであってもその差が大きくなる可能性があるためです。
ベンダーは当然ながら自社製品の優れた点のみを強調したいと考えており、テクノロジー企業は、情報源に関わらず、自社の問題を顧客や競合他社に公表することに消極的になることがあります。そして昨今、インテルのようなサプライヤーとクラウドベンダーのような顧客との間の契約関係は、法律用語や秘密保持契約で覆われており、関係企業が状況について自由に話すことを妨げています。
しかし、情報を共有している人々は、いくつかの一般的かつ顕著なワークロードシナリオが最も大きな影響を受けているようだと指摘しています。Amazon Web ServicesとMicrosoftの担当者は、コメント要請に応じなかったか、先週発表したパッチによるパフォーマンスへの影響に関する声明以外のコメントを拒否しました。
Google は次のような声明を発表しました。これは、パフォーマンスの問題はすべてユーザーの責任であると示唆しているようです。
クラウドのお客様が受けるパフォーマンスへの影響は、クラウドプロバイダが導入する緩和策と、お客様が導入する追加の緩和策の2つの要素によって決まります。Google Cloud向けの緩和策は、パフォーマンスへの影響を最小限に抑えるよう設計し、展開前にテストを実施しています。お客様が導入する緩和策は、実装戦略が異なっていたり、潜在的な攻撃に対する保護策が異なっていたりするため、パフォーマンスへの影響も異なります。
Red Hat は、先週追加されたパッチにより、Red Hat Enterprise Linux 7 を実行しているユーザーが目にするアプリケーションの種類のリストをまとめました。
最悪の影響は?
測定可能: 8~19% – バッファリングされたI/O、OLTPデータベースワークロード、カーネルからユーザー空間への遷移頻度が高いベンチマークなど、高度にキャッシュされたランダムメモリは8~19%の影響を受けます。例としては、OLTPワークロード (tpc)、sysbench、pgbench、netperf (< 256バイト)、fio (NvMEへのランダムI/O) などが挙げられます。
こうしたワークロードの一つであるOLTP(オンライントランザクション処理)は、オンラインでトランザクションを処理するために使用される、比較的基本的なタイプのデータベースです。オペレーティングシステムカーネルに定期的にデータを要求する必要があるアプリケーションは、MeltdownとSpectreに対処するために必要な緩和策の影響を受けることになります。なぜなら、ごく最近までオペレーティングシステムは、チップがそれらの処理を安全に処理できると想定していたからです。
Red Hat によると、Java 仮想マシンは、ユーザーのワークロードに 3 ~ 7 パーセントの影響が予想される、より軽微なカテゴリに分類されるが、一部の Java ユーザーへの影響はより深刻だという。
Linux カーネルと他のオペレーティング システムに直接適用された Spectre の修正は、ハードウェア仮想マシンを利用するアプリケーション (以下の例では Kafka データ ストリーム) のパフォーマンスにも影響を与えているようです。これは、AWS エンジニアが Twitter スレッドの下部で確認しています。
さて、いよいよ難しい局面です。クラウドベンダーとオペレーティングシステムベンダーは、先週と今週初めに導入した保護対策は暫定的なものであると強調しており、今後、これらの脆弱性に対処するためのより優れた方法を開発していく予定です。
インテル特有の脆弱性であるメルトダウンは、企業がパッチを適用し、ユーザーを後続の攻撃から守り、新たなパフォーマンスレベルに適応させるにつれて、徐々に注目を集めるようになるでしょう。しかし、スペクター対策(現在進行中の、世界中のほぼすべてのチップを再設計するための数年にわたるプロセスを除く)は、脆弱性を悪用することをより困難にするだけで、脆弱性の穴を塞ぐことにはなりません。しかも、対策はスペクターの既知の悪用方法にのみ対処しています。どこかの誰かが、スペクターの新たな脆弱性を悪用する手段を競って見つけようとしていることは、ビットコインを全額賭けても間違いないでしょう。
つまり、クラウドベンダーやオペレーティングシステム企業は、データセンターチップのインストールベースがこれらの欠陥のない新しいチップに切り替わるまで、Spectre関連の問題に対する追加の修正を展開する必要があるだろうが、Intelがデータセンターチップ市場の約95%を占めていることを考えると、それには永遠にかかるだろう。
これはまた、多くの企業にとって、2018年に技術インフラの運用コストが若干高くなることを意味します。企業は必ずしもそれを計画していたわけではなく、技術ベンダーは、その追加インフラのコストを顧客に転嫁するかどうかを決定する必要があります。
CPU使用率が約20%から約40%に上昇しました(冗長化された重要なマシンは、以前は問題なく動作していた負荷でもパフォーマンスが向上しています)。今月のAWSのコストは少なくとも10%上昇すると予測しています(EMRの影響はまだ確認していませんが、同様の場合、20~30%上昇するでしょう)。#spectre #meltdown #fb
— ルーベン・ベレンゲル博士 (@berenguel) 2018 年 1 月 6 日
AWS、Microsoft、Google は、制御不可能な要因によりコストの増加やパフォーマンスの低下に直面している顧客に対する計画について、コメントの要請に応じなかったか、コメントを拒否した。