Ipad

見て、聞いて：AIヘッドフォンは背景のノイズをキャンセルし、一目見ただけで1人の話者に焦点を合わせます

カート・シュロッサー著2024年5月23日午前11時55分2024年5月23日午前11時55分

ワシントン大学の研究チームは、ヘッドホンを装着したユーザーが3～5秒間話している人物を見つめると、騒がしい場所で動き回って話者と顔を合わせなくなった場合でも、登録した話者の声だけをリアルタイムで聞くことができる人工知能システムを開発した。(ワシントン大学撮影 / 田口清美)

「話している時は私の目を見なさい」という忠告を聞いたことがあるかもしれません。しかし、ヘッドホンを装着していても、相手を見るだけでよりはっきりと話を聞くことができたらどうでしょうか？

ワシントン大学の研究者が開発した新しい人工知能システムでは、まさにそのようなことが起こっています。ノイズキャンセリングヘッドホンを装着した人が、数秒間その人を見つめるだけで、その人をシステムに「登録」することができます。すると、システムは周囲の他のすべてのノイズをキャンセルし、登録した話者の声だけを再生します。たとえその人が動いて話し手の顔を向けなくなっても、その声は再生されます。

「ターゲット・スピーチ・ヒアリング」と呼ばれるこの取り組みは、以前ノイズキャンセリングヘッドホン用の「セマンティック・ヒアリング」システムを開発したワシントン大学チームによるものです。このシステムでは、周囲の音からどの音をフィルタリングし、どの音を拾うかをユーザーが選択できます。鳥のさえずり？はい。子供の叫び声？いいえ。

市販のノイズキャンセリングヘッドホンにバイノーラルマイクを搭載したAIヘッドホンのクローズアップ。（ワシントン大学撮影 / 田口清美）

この新しいシステムは、マイク付きの市販のヘッドフォンを使用します。ヘッドフォンを装着した人は、話している人の方に頭を向けながらボタンをタップします。話者の声の音波がヘッドセットの両側にあるマイクに届き、ヘッドフォンはその信号を内蔵コンピューターに送信します。そこで機械学習ソフトウェアが、聞きたい話者の声のパターンを学習します。

システムは話者の声を捉え、たとえ二人が動き回っても、リアルタイムで再生を続けます。ワシントン大学によると、話者が話し続けるにつれて、システムが登録された声に集中する能力が向上し、システムにさらに多くの学習データを提供するとのことです。

AppleのAirPods Proなど、会話中に音量を自動調整できるノイズキャンセリングヘッドホンは既に存在します。ワシントン大学のプロトタイプはこれをさらに進化させ、ユーザーが誰の話をいつ聞くかを制御できるようになりました。

混雑したレストランやカフェテリアでヘッドフォンを装着していると、周囲の騒音で向かい側に座っている人の声が聞き取りにくくなることを想像してみてください。ボタンを押してスピーカーに視線を向けるだけで、状況は一変します。

現在、システムは一度に1人の話者しか登録できず、対象話者の音声と同じ方向から大きな声が聞こえない場合にのみ、その話者を登録できます。明瞭度を向上させるには、その話者に対して再度登録を実行してください。

研究チームは5月14日、ホノルルで開催されたACM CHIカンファレンス（コンピューティングシステムにおけるヒューマンファクターに関する会議）で研究成果を発表しました。この概念実証デバイスのコードは、他の開発者が利用できるように公開されています。このシステムは市販されていません。

システムの動作をご覧ください:

見て、聞いて：AIヘッドフォンは背景のノイズをキャンセルし、一目見ただけで1人の話者に焦点を合わせます

You May Have Missed

アマゾンは新技術のテストと美容製品の販売拡大を目指し、ロンドンに初のヘアサロンをオープンした。

GeekWork: Zillow、DoubleDown、Tellwise、PayScaleからの魅力的な仕事

ペンドレルの子会社がDRM特許侵害でアップル、アマゾンなどを提訴

REIは、ブラックフライデーに何百万人もの人がOptOutsideを選択したことにより、オンライントラフィックが36％増加したと報告しています。

ジェフ・ベゾスとNASA長官がブルーオリジンの月着陸船をチラ見せ

マイクロソフトの最新iPhoneアプリはセレブに注目している

シアトル警察はアマゾンの副社長を最高技術責任者として採用し、よりデータに基づいた犯罪対策を約束

収益性の高いデジタルメディアエージェンシー、スマッシング・アイディアズがベルテルスマンに買収される

You may also like...

Popular Posts

You May Have Missed