Airpods

NPRの合成司会者?AIスタートアップWellSaid Labsが驚異の「Planet Money」音声クローンを開発

NPRの合成司会者?AIスタートアップWellSaid Labsが驚異の「Planet Money」音声クローンを開発

トッド・ビショップ

NPRの「プラネット・マネー」を長年聴いている人にとって、かつての司会者の一人であるロバート・スミスほど有名で象徴的な声を持つ人はそう多くないだろう。しかし、どんなに経験豊富で鋭い耳を持つ人でも、このジャーナリストと彼のクローンの声の違いを見分けるのは難しいかもしれない。

その正確さは、視点によって感動的であったり、恐怖を感じさせるものであったりします。

いずれにせよ、これは WellSaid Labs の技術の功績です。

2019年にシアトルのアレン人工知能研究所からスピンアウトしたシアトルのスタートアップ企業は、共同司会者のジェフ・グオ氏とケニー・マローン氏が人工知能を使用してリサーチやインタビューの質問からエピソードの脚本、ラジオドラマまであらゆるものを制作する3部構成のプラネット・マネー・シリーズのために「合成ロバート」を制作することに同意した。

その結果、AIが制作した番組が誕生し、金曜日の夜に初公開されました。スミス氏の合成音声とマローン氏の肉声を共同司会として迎えました。結末は伏せますが、番組全体が素晴らしく、啓発的で、少し怖いものになっています。

人間の声のクローン作成は業界でますます一般的になりつつあります。WellSaid Labsは、私たちの問い合わせに対し、クローン作成の対象となる人物の明確な同意を得た場合にのみ、人間の声のクローン作成を行うと説明しました。同社はビジネスアプリケーション向けの音声技術に特化しており、悪用やなりすましのリスクがあるため、音声クローン技術を一般公開していません。

注目すべきは、同社が Planet Money によるこの技術の使用に詳細な条件を課したことだ。

シリーズの第二話で郭氏とマローン氏が説明したように、ウェルサイード・ラボは音声クローンの作成にスミス氏の明確な許可を必要としました。また、同社はプラネット・マネーが合成ロバートに話させたすべての言葉を監視し、番組の価値観に反する目的で使用された場合、番組全体の制作を中止すると脅迫していました。

「そしておそらく最大の条件は、このプロジェクトが終了次第、『合成ロバート』はシャットダウンされるということです」と郭氏は第2話で説明する。「彼はAI生成エピソードのナレーションを担当できたでしょう。そしてその後、彼は機能的に破壊され、二度と使われることはありません」

私たちの努力は壮大な Planey Money プロジェクトに比べると見劣りしましたが、数週間前には GeekWire Podcast でこの実験のより控えめなバージョンを試しました。スタートアップ ElevenLabs の Web サイトから入手できるテクノロジーを使用して、音声クローンで AI 生成のスクリプトを読み上げました。

ElevenLabsは、音声サンプルに基づいて、本物の人間の声をDIYで複製するサービスを提供しています。複製する声の持ち主が許可を与えたことをユーザーに確認する必要がありますが、これは基本的にチェックボックスのようなもので、厳密な安全策ではありません。ElevenLabsの音声クローンはジョンにとっては完璧でしたが、私の場合は、かなり調整した後でも少し違和感がありました。

大きな違いが一つあります。GeekWire Podcast用のElevenLabsの音声クローンは、ほんの数分で作成できました。番組によると、Planet MoneyはWellSaidがSynthetic Robertを作成するのに数週間待たなければなりませんでした。

待った甲斐がありました。

WellSaid Labsのライアン・ジョンソン氏が第2話に出演し、郭氏とマローン氏に加わり、AIが生成したスミス氏の声の進化を示すクリップを再生します。最初は不明瞭な音声でしたが、ほぼ完璧な複製へと変化し、最終的にはラジオパーソナリティのシリコンバージョンとカーボンバージョンの判別が困難になっています。

ここから始まる Planet Money の 3 部構成の AI シリーズをご覧ください。

6 月 5 日月曜日に訂正し、WellSaid Labs が音声クローン技術を提供する方法を明確にしました。