Watch

AI2がWellSaidを誕生させた。驚くほどリアルな音声を合成するスタートアップだ。

AI2がWellSaidを誕生させた。驚くほどリアルな音声を合成するスタートアップだ。
WellSaidソフトウェアインターフェース
スクリーンショットは、WellSaid の音声合成プラットフォームの使用方法を示しています。(WellSaid イラスト)

AppleのSiri、MicrosoftのCortana、AmazonのAlexa、Google Assistantなどがあるのに、私たちの命令を実行するためにさらに多くの合成音声が本当に必要なのだろうか?

その通りだと、シアトルのアレン人工知能研究所(AI2としても知られる)から独立したスタートアップ企業、WellSaid Labsの創設者たちは言う。

「私たちは単に別の問題を解決しようとしているだけです」と、共同創業者兼最高技術責任者のマイケル・ペトロチャック氏はGeekWireに語った。「AlexaとGoogle Homeは、明瞭かつゆっくりとしたコミュニケーションという課題を解決しようとしているのです。つまり、誰もが理解できるように、全てを同じ発音で、単調な形式で伝えるということです。」

対照的に、WellSaidは、様々な状況に合わせてカスタマイズされたAI音声を開発しており、その音声はロボットとは思えないほどリアルだ。最近、AI愛好家を招いて行われたビデオデモンストレーションでは、ほとんどの人が画像はアルゴリズムによって生成されたものだと推測したが、音声はそうではなかった。

「私たちの声は毎回違って聞こえます」とペトロチュク氏は言う。「文章をいつも違ったように解釈してくれるので、動画やオーディオブックでも眠くならずに使えます。」

このベンチャーは、AI2のスタートアップインキュベーターの支援を受け、ペトロチャック氏とWellSaidのもう一人の創業者兼CEOであるマット・ホッキング氏が取り組んでいた研究から生まれました。現在、この技術は一般公開の準備が整っており、2人のAI研究者はシード資金を調達し、パートナーを探しています。

「音声を使ったコンテンツ制作や次世代の音声体験の提供に関心のある企業との提携を模索しています」とホッキング氏は述べた。「私たちは、機会を模索してくれる人材を積極的に探しています。」

この技術は幅広い分野に応用可能です。例えば、「レッド・デッド・リコンプション2」というビデオゲームでは、700人の声優が必要でした。理論的には、WellSaidは膨大な合成音声カタログを提供し、AIで同様の作業を行うことが可能です。

WellSaidのソフトウェアプラットフォームは、オーディオブックに彩りを添えたり、カスタマイズされた音声アシスタントを提供したり、企業に「ブランド音声」を提供して企業の永続的なイメージの一部にしたりすることも可能です。ベテランアナウンサーのドン・パルドはもうこの世にいませんが、彼の合成音声は今後数十年にわたって「サタデー・ナイト・ライブ」のアナウンサーとして活躍し続けるかもしれません。

事故や病気で話す能力を失った人々にとって、ウェルサイードは、故スティーブン・ホーキング博士のトレードマークとなったロボットのような単調な声ではなく、自然な抑揚のある合成音声を提供できる可能性がある。

ホッキング氏はこのコンセプトを、クリエイティブな作品におけるストック画像、ストックビデオ、ストックミュージックの使用に例えました。これからはストックボイスも登場するでしょう。

「書かれたものはすべて声に出すことができるようになりました」とホッキング氏は語った。

ペトロチュク氏とホッキング氏は、超リアルな合成音声に伴う潜在的な落とし穴を深く認識している。バラク・オバマ前大統領が「ベン・カーソンは沈んだ場所にいる」といった突飛な発言をしているように見える動画など、ディープフェイク動画は既に、現実と偽物の境界線が認識できないほど曖昧になり得ることを示している。

「それは当社が目指す方向性ではありません」とペトロチュク氏は述べた。「私たちは、クリエイターが音声で創作活動ができるようにすることに焦点を当てており、AI2のミッションに基づき、公共の利益となる製品の開発に注力しています。そのため、この技術にはいくつかの潜在的な悪影響があることを認識する必要があります。」

ペトロチュク氏は、ウェルサイドは誰にも声を作ることを許可しないと述べた。「私たちがやっているのは、厳選された声のライブラリを公開することだけです。ただし、それらの声が否定的な形で使われないよう、適切な注意書きは付けています」と彼は述べた。

WellSaidの音声は、同意を得た声優が話したテキストを録音し、その音声の自然な「指紋」を捉えるアルゴリズムに通すことで生成されます。この音声は、WellSaidのソフトウェアプログラムに入力されたあらゆるテキストを読み上げる際に使用され、感情的な内容を伝えるために適切な調整が加えられます。

WellSaid の合成音声の安定により、俳優の仕事がなくなるのではないだろうか?

「現在、私たちはコア技術の開発に取り組んでいますが、声優を写真家に例えることができるビジネスモデルを確かに考えています」とホッキング氏は述べた。「声優は自分の声の合成バージョンを所有し、それをライセンス供与して、より大規模で低品質のプロジェクトに提供できるようになるかもしれません。しかし、その際には、本当に演技が必要なハイエンドの映画やテレビCMに携わることになります。」

その反面、このソフトウェアは文字通り声なき人々に声を与えることができます。

「プラス面はマイナス面をはるかに上回っています」とホッキング氏は述べた。「CGIや既存の技術を見れば、音声技術がそこに必然的に加わることは明らかです。私たちが注力しているのは、発話に困難を抱える人、話せない人、あるいは何か価値あるものを生み出すために音声へのアクセスを必要とする人々を支援するアプリケーションです。…私たちは、この素晴らしい技術を、それを最も必要としている人々に届けることに注力しています。」

以下に、追加の比較例をいくつか示します。