
見て、聞いて:AIヘッドフォンは背景のノイズをキャンセルし、一目見ただけで1人の話者に焦点を合わせます
カート・シュロッサー著

「話している時は私の目を見なさい」という忠告を聞いたことがあるかもしれません。しかし、ヘッドホンを装着していても、相手を見るだけでよりはっきりと話を聞くことができたらどうでしょうか?
ワシントン大学の研究者が開発した新しい人工知能システムでは、まさにそのようなことが起こっています。ノイズキャンセリングヘッドホンを装着した人が、数秒間その人を見つめるだけで、その人をシステムに「登録」することができます。すると、システムは周囲の他のすべてのノイズをキャンセルし、登録した話者の声だけを再生します。たとえその人が動いて話し手の顔を向けなくなっても、その声は再生されます。
「ターゲット・スピーチ・ヒアリング」と呼ばれるこの取り組みは、以前ノイズキャンセリングヘッドホン用の「セマンティック・ヒアリング」システムを開発したワシントン大学チームによるものです。このシステムでは、周囲の音からどの音をフィルタリングし、どの音を拾うかをユーザーが選択できます。鳥のさえずり?はい。子供の叫び声?いいえ。

この新しいシステムは、マイク付きの市販のヘッドフォンを使用します。ヘッドフォンを装着した人は、話している人の方に頭を向けながらボタンをタップします。話者の声の音波がヘッドセットの両側にあるマイクに届き、ヘッドフォンはその信号を内蔵コンピューターに送信します。そこで機械学習ソフトウェアが、聞きたい話者の声のパターンを学習します。
システムは話者の声を捉え、たとえ二人が動き回っても、リアルタイムで再生を続けます。ワシントン大学によると、話者が話し続けるにつれて、システムが登録された声に集中する能力が向上し、システムにさらに多くの学習データを提供するとのことです。
AppleのAirPods Proなど、会話中に音量を自動調整できるノイズキャンセリングヘッドホンは既に存在します。ワシントン大学のプロトタイプはこれをさらに進化させ、ユーザーが誰の話をいつ聞くかを制御できるようになりました。
混雑したレストランやカフェテリアでヘッドフォンを装着していると、周囲の騒音で向かい側に座っている人の声が聞き取りにくくなることを想像してみてください。ボタンを押してスピーカーに視線を向けるだけで、状況は一変します。
現在、システムは一度に1人の話者しか登録できず、対象話者の音声と同じ方向から大きな声が聞こえない場合にのみ、その話者を登録できます。明瞭度を向上させるには、その話者に対して再度登録を実行してください。
研究チームは5月14日、ホノルルで開催されたACM CHIカンファレンス(コンピューティングシステムにおけるヒューマンファクターに関する会議)で研究成果を発表しました。この概念実証デバイスのコードは、他の開発者が利用できるように公開されています。このシステムは市販されていません。
システムの動作をご覧ください: