Iphone

神経科学者が脳音声翻訳機を微調整 ― しかし、まだ道のりは長い

神経科学者が脳音声翻訳機を微調整 ― しかし、まだ道のりは長い

アラン・ボイル

カリフォルニア大学サンフランシスコ校の神経科学者エディ・チャン氏(右)が、博士研究員のデイビッド・モーゼス氏と研究結果について話し合っている。(UCSF写真 / ノア・バーガー)

神経科学者たちは、実際の会話ではなく脳の活動に基づいて、何が話されているかをリアルタイムで判断できるコンピューターシステムを実証した。

この技術は、非侵襲性のウェアラブル脳テキスト翻訳装置の開発を目指すFacebook Reality Labsによって部分的に支援されている。しかし、より短期的には、この研究は閉じ込め症候群の患者が思考を通じてコミュニケーションをとることを支援する可能性が高い。

「彼らは話すことを想像することができ、そしてこれらの電極がそれを感知できるかもしれない」と、シアトルに拠点を置くアレン脳科学研究所の主任科学者兼所長で、この研究には関わっていないクリストフ・コッホ氏は述べた。

オープンアクセス誌「ネイチャー・コミュニケーションズ」に本日発表された最新の実験は、カリフォルニア大学サンフランシスコ校の研究チームが、参加を希望したてんかん患者3名を対象に実施した。この研究は、脳のパターンを音声に変換する以前の実験を基に構築されたもので、リアルタイムではない。

「脳活動のリアルタイム処理は単純な音声の解読に利用されてきたが、この手法が話された単語やフレーズの識別に利用されたのは今回が初めてだ」と、本研究の主任研究者でUCSFの博士研究員デビッド・モーゼス氏はニュースリリースで述べた。

高密度皮質電気記録法(ECoG)として知られるこの技術では、皮質表面に電極を埋め込む侵襲的な脳手術が必要でした。この手術の主目的は、患者のてんかん発作の原因を特定することでしたが、モーゼス氏らは、発話や音声の聴取に関連する脳活動もモニタリングしました。

脳電極
このような電極は、脳神経外科手術の準備として、発作の原因をマッピングするために、患者の脳の表面に1週間以上一時的に設置されます。(UCSF写真/ノア・バーガー)

研究者たちは、コンピューターモデルを訓練し、電気活動のパターンと音声の発音を関連付けました。モデルを訓練した後、研究チームは高度に構造化された会話を録音し、脳のパターンのみに基づいてコンピューターに会話の内容を判別させました。会話には、「好きな楽器は何ですか?」…「今の部屋はどうですか?」…「0から10までで、どれくらい快適ですか?」といった質問が含まれていました。

コンピュータモデルは、患者の発話内容については61%、聞き取った内容については76%という高い精度を達成しました。これは、偶然の一致(それぞれ7%と20%)で予測される精度をはるかに上回ります。

これらの実験は、チームの以前の研究よりも改善されたものでした。その理由の一つは、コンピューターモデルが質問と回答の文脈を考慮に入れるように微調整されたことです。これにより、モデルは「fine」と「five」といった似た発音の単語を区別できるようになりました。

脳コンピューターインターフェース(BCI)は、イーロン・マスク氏のNeuralinkベンチャーや、手術を必要としない脳波テキスト翻訳装置の開発を目指すFacebookの取り組みなど、野心的なプロジェクトのおかげで、最近話題になっている。

しかし、コッホ氏は、UCSFチームのアプローチは異なる方向性を示していると述べた。「素晴らしいのは間違いない。将来性があることも間違いない」と彼は言った。「しかし、日々の業務では、実際には役に立たない。こうした素晴らしい技術に共通する問題は、進展が遅いことだ」

UCSFの研究論文の筆頭著者であるエドワード・チャン氏は、将来的には、物理​​学者の故スティーブン・ホーキング博士を苦しめた神経変性疾患を患う人々など、自分で話すことができない患者への応用も強調した。

https://www.youtube.com/watch?v=wYiQAqKo8qA

「現在、麻痺により言語能力を失った患者は、残存する眼球運動や筋肉の痙攣を用いてコンピューターインターフェースを操作するなど、非常にゆっくりと単語を綴るしか方法がありません」とチャン氏は本日のニュースリリースで述べた。「しかし多くの場合、流暢な発話に必要な情報は脳内にまだ残っています。私たちには、それを表現できるようにする技術が必要なのです。」

チャン氏と彼の同僚は、新たに報告された研究で使用されたタイプのインプラントが、脳卒中、神経変性疾患、または外傷性損傷によって麻痺した患者の運動能力と発話能力を回復するために使用できるかどうかを調べるために、 BRAVO (B CI Restoration of Arm and Voice)と呼ばれる研究プロジェクトを立ち上げました。

この技術は、健康な人のための精密な心を読むツールにもつながるのだろうか?コッホ氏は、研究者が脳の活動をニューロン単位で追跡できる精度にどれだけ近づけるかにかかっていると述べた。

「まるでスタジアムの上空にいるような感じです」と彼は説明した。「飛行船に乗って、一人ひとりの会話を拾おうとしているような感じです」

一つの選択肢としては、飛行船からブームの先端にマイクを取り付け、演説者の顔のすぐ前に置くというものがあります。これは、将来、脳インプラントが実現するかもしれないことと似ています。しかし、マイクをスタンドに落とすことができないのであれば、タッチダウン後の観客の歓声や、ウェーブの際に巻き起こる音の渦を拾うのが精一杯でしょう。

「人間の脳を解読しようとすることが、私たちが直面している問題なのです」とコッホ氏は語った。