
Alexaは常に聞いているのか?デジタルアシスタントの偶発的な起動を調査する新たな研究
ナット・レヴィ著

AlexaやSiriなどのデジタルアシスタントのリスニング能力は、昨年、プライバシーをめぐる大きな論点となりました。ノースイースタン大学とロンドン大学インペリアル大学の研究者グループは、過去6ヶ月間、スマートスピーカーを研究し、何がスマートスピーカーのトリガーになるのか、そしてスマートスピーカーが常に「リスニング」しているのかどうかについて、より深く理解しようと努めてきました。
進行中の研究では、デジタルアシスタントが常に聞き耳を立てている可能性を「裏付ける証拠は見つからなかった」とされています。調査では、デバイスは頻繁に起動していましたが、主に起動時に意図されたフレーズに似た単語によって起動していました。Alexaの場合、「感嘆符」「ケビンの車」「女性議員」など、「k」の音を含む単語がこれに該当します。しかし、起動時間は数秒から1分近くと短いものでした。
研究者たちは、複数のスマートスピーカー(Echo 2台、Google Home Mini 1台、Apple HomePod 1台、そしてMicrosoft Cortana搭載のHarman Kardon Invoke 1台)を設置し、それらがいつどのように起動したかを監視・記録できる環境を構築した。研究チームはNetflixで「ザ・オフィス」「ギルモア・ガールズ」「グレイズ・アナトミー」など、会話の多い番組を125時間再生し、従来の「ウェイクワード」以外のフレーズでデバイスが起動したかを記録した。
調査の結果、Echo Dot(第2世代)とInvokeの起動時間が最も長く、20秒から43秒でした。残りのデバイスの起動時間は短く、約半数が6秒以下でした。
ウェイクフレーズに似た単語はデバイスを作動させたものの、結果を繰り返し得るのは困難でした。研究チームは実験を12回繰り返しましたが、一貫して作動したのはわずか8.44%でした。

この文脈における「聞く」の定義は、デバイスを開発する人々にとってさえも混乱を招く可能性がある。先週、PBSフロントラインの番組で、Amazonデバイス担当責任者のデイブ・リンプ氏は、Amazonが何百万人もの人々に「聞くデバイス」を自宅に設置するよう説得できる理由について問われた。リンプ氏はこの質問への回答で、Alexaは聞くデバイスではないと主張した後、どのように「聞く」のかを説明し、その後、前言を撤回するという、失言をしたようだ。
「まず前提に同意できません。これは盗聴装置ではありません」とリンプ氏は述べた。「この装置の中心には検出器が搭載されています。社内では『ウェイクワードエンジン』と呼んでいます。この検出器は盗聴しているのですが、実際には盗聴しているわけではなく、ただ一つのことだけを検知しているのです。それは、Echoの注意を引こうとしているユーザーが発した言葉です。」
これらの仮想アシスタントがウェイクワードをどのように監視しているかという問題は、昨年 Amazon が発表したスマートリングや Alexa 対応メガネなど、さまざまな種類の IoT デバイスに普及するにつれて、さらに重要になるでしょう。
2019年を通して、Google、Amazon、Appleなどの大手IT企業の従業員チームが、自社のスマートスピーカーで発せられた音声クリップの一部をデジタルアシスタントの改良のために聴いているという報道が相次ぎました。プライバシーへの懸念から、各社はユーザーが音声クリップのレビューを拒否できるオプションを設け始めました。
このレポートは、より大規模なプロジェクトの第一歩に過ぎません。今後のアップデートでは、音声録音がクラウドに送信されるアクティベーションの数とデバイス上でのみ処理されるアクティベーションの数、クラウドプロバイダーが録音された音声のケースをすべて正確に表示しているかどうか、話者が聞いた内容に適応し調整しているかどうか、性別、民族、アクセントなどの要因が話者のアクティベーションにどのように影響するかなどについて調査します。