Ipad

WellSaid Labs、AIを活用した合成音声事業の拡大に向け1,000万ドルを調達

WellSaid Labs、AIを活用した合成音声事業の拡大に向け1,000万ドルを調達

アラン・ボイル

WellSaidソフトウェア
WellSaid Labs は、テキスト読み上げアプリケーション向けに自然な音声アバターを作成します。(WellSaid Labs グラフィック)

WellSaid Labs は、シアトルの新興企業として AI 生成の合成音声の活用を拡大する取り組みを強化するために新たに 1,000 万ドルを投資したことにより、今後さらに多くのことを発信できるようになるだろう。

シリーズAの資金調達ラウンドは、シアトル・シーホークスのスターラインバッカー、ボビー・ワグナーをパートナーに持つ初期段階のベンチャーキャピタル会社Fuseが主導し、WellSaidが2019年にシアトルのアレン人工知能研究所からスピンアウトした際に調達した200万ドルのシード資金に続くものとなる。

以前のシードラウンドの投資家の一社であるVoyager Capitalは、新たに発表されたシリーズAの資金調達にも出資しました。Qualcomm VenturesとGood Friendsも同様です。

ウェルセイドのCEO、マット・ホッキング氏は、新たな資金は12人の従業員を抱えるこの音声合成スタートアップ企業の成長に充てられると語った。

WellSaid Labs CEO マット・ホッキング氏。

「現在取り組んでいる研究、そしてテクノロジーを継続的に向上させるためにここで行っている研究をさらに強化する必要があります」とホッキング氏はGeekWireに語った。「それに加えて、製品ラインナップを拡充し、より多くのお客様に、より多様で興味深い方法でサービスを提供するために、当然ながら人材の採用も行っています。そしてそれに加え、営業チームの構築にも注力しています。」

WellSaid Labs のプラットフォームは、オーディオ制作プラットフォームを通じて、社内トレーニング マテリアルからソーシャル メディアのショート ビデオまで、さまざまなアプリケーションで使用できる、自然な響きの合成音声を幅広く提供しています。

「人間よりも優れた音声を作ろうとしているわけではありません」とホッキング氏は述べた。「それが私たちの仕事ではありません。多くのコンテンツが音声化されないままになっているのは、単に迅速な対応が求められたり、常に更新する必要があったり、あるいは予算が確保されていない社内コンテンツだったりするからです。」

こうした状況ではWellSaidが役立ちます。「WellSaidのおかげで、通常は選択肢がないような作品に音声を追加する機会が生まれます」とホッキング氏は言います。

同氏は顧客名を明かさなかったが、参考までに、WellSaid の Web サイトには、ノキア、カリフォルニア大学サンフランシスコ校、Blue Sky eLearn、およびカナダの食品小売業者 Sobeys からの推薦がリストされている。

WellSaidは、人間の音声パターンに基づいた10種類以上の音声合成アバターを提供しています。自動車セールスマンの軽快な話し声から、まるで女性研究者が話しているかのような率直な朗読まで、実に多岐にわたります。同社は、短い音声クリップにおいて、同社のソフトウェアは「人間と同等」の自然さを実現したと主張しています。

でも待ってください…それだけではありません。顧客は、ブランド音声の話し方を再現した独自の「AI音声アバター」を、仕様に合わせて作成できます。理論的には、WellSaidはジェフ・ベゾス氏をスタジオに招き、まるで元Amazon CEOが新入社員への歓迎メッセージを読み上げているかのような合成音声を作成することも可能でしょう。(現実的に考えれば、もしそのようなニーズが生じた場合、Amazonはおそらく自社の音声合成チームにこの仕事を引き受けるでしょう。)

WellSaidは、今後も合成音声のレパートリーを増やし、その忠実度を高めていくことを目指しています。将来的には、同社の音声がビデオゲームでセリフを言ったり、コンピューターで生成されたニュース番組の台本を読んだり、消費者との複雑なリアルタイムインタラクションに利用されたりするかもしれません。

これらすべては、WellSaidの技術とビジネスモデルについて、より深い疑問を提起する。まず第一に、例えばジョー・バイデン大統領の声を悪意ある目的で合成することを、一体何が阻止できるのだろうか?

「当然のことながら、私たちの技術が正しい方法で、正しい目的に使用されていることを確認する責任があります」とホッキング氏は述べた。「私たちは、実際の声に基づいて、分野に特化した音声を作成しています。誰かの同意なしに、勝手に音声を作成することは決してありません。」

そしてビジネスモデルに関して言えば、WellSaidはどのようにして、独自の音声合成プラットフォームを持つGoogle、Amazon、Microsoftなどの企業と競争できると考えているのだろうか?

「彼らはTTS(テキスト読み上げ)技術を扱っているため、我々は彼らと競合関係にあります」とホッキング氏は認めた。「しかし、我々はTTSの本質を再構築し、新たな発想で開発しました。」

ホッキング氏は、WellSaidは音声合成技術の新たな応用を追求する上で有利な立場にあると主張した。「私たちは、こうした興味深いユースケースのいくつかに触れてきました」と彼は説明した。「5年前は映画のセットでしか実現できなかったことが、今では全く異なる視点から可能になっています。」

そしてホッキング氏の視点から見ると、シアトルは音声合成の最先端をさらに開拓するのに最適な場所です。

「私たちのチームの大半はシアトル出身です」と彼は指摘した。「私たちは皆、ここで出会いました。もちろん、この地域に住んでいる人を優先しています。素晴らしい才能がここにいると感じているだけでなく、ビジネスを構築するのに素晴らしい場所だからです。」