Vision

ワシントン大学の研究者らは、AIを活用してノイズキャンセリングヘッドホンが特定の音をフィルタリングできるようにしている。

ワシントン大学の研究者らは、AIを活用してノイズキャンセリングヘッドホンが特定の音をフィルタリングできるようにしている。

カート・シュロッサー

ワシントン大学の研究者が率いるチームは、鳥のさえずり、左折、人の話し声など、ヘッドフォンからフィルタリングする音をユーザーがリアルタイムで選択できるディープラーニングアルゴリズムを開発しました。(ワシントン大学画像)

もしノイズキャンセリングヘッドホンが、実際に聞きたい音まで消してしまうのなら、ワシントン大学の研究者たちが、検討する価値のある解決策を持っているかもしれない。

ワシントン大学のチームは、ユーザーが環境からどの音をフィルタリングし、どの音を受け入れるかを決定できるディープラーニングアルゴリズムを開発しました。例えば、公園に座って鳥のさえずりを楽しみながら、人の話し声は遮断したり、自宅で掃除機をかけている時のブーンという音は遮断しながら、ドアをノックする音はそのままにしたりといったことが可能です。

「セマンティック・ヒアリング」と呼ばれるこのシステムは、ヘッドフォンで録音した音声を接続されたスマートフォンにストリーミングすることで、周囲の音をすべてキャンセルします。音声コマンドまたはアプリを使って、ユーザーは20種類の音の中から聞きたい音を選択します。鳥の鳴き声、サイレン、赤ちゃんの泣き声、車のクラクションなど、選択した音だけがヘッドフォンから再生されます。

「鳥の鳴き声を理解し、環境内の他のあらゆる音からそれを抽出するには、今日のノイズキャンセリングヘッドホンでは実現できないリアルタイムの知能が必要です」と、論文の筆頭著者でワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部教授のシャム・ゴラコタ氏は述べています。「課題は、ヘッドホンを装着した人が聞く音が視覚と同期する必要があることです。話しかけられてから2秒後には、その人の声が聞こえないはずです。つまり、ニューラルアルゴリズムは100分の1秒未満で音を処理しなければならないということです。」

このスピードへの要求こそが、セマンティック聴覚システムがクラウドサーバーではなく、接続されたスマートフォン上で音を処理する理由です。ワシントン大学によると、異なる方向からの音は人の耳に届く時間も異なるため、システムは遅延やその他の空間的な手がかりも保持する必要があるため、人は周囲の音を意味のある形で知覚することができます。

アップルは9月に、ノイズキャンセリングモード時にユーザーが聞くべき音をインテリジェントに判断する改良されたソフトウェアを搭載した新世代のワイヤレスイヤホン「AirPods Pro」をリリースした。

UW システムは、オフィス、道路、公園などの環境でテストされ、サイレン、鳥のさえずり、警報、その他のターゲット音を抽出し、その他の現実世界のノイズをすべて除去することができました。

このシステムは、音楽のボーカルや人間の話し声など、多くの特性を共有する音を区別するのに苦労しており、研究者らは、より多くの現実世界のデータでモデルをトレーニングすれば、その結果が改善される可能性があると述べた。

研究チームは11月1日、サンフランシスコで開催されたUIST '23で研究成果を発表しました。将来的には、このシステムの商用版をリリースする予定です。