
Google Cloud は、Google マップなどのアプリのテキスト読み上げ機能を Google Cloud Platform で利用できるようにします。
トム・クレイジット著

Google は、クラウド顧客を獲得するために人工知能研究を活用する方法に引き続き注力しており、火曜日に、Google Cloud を使用する開発者向けに、同社の人気アプリケーションの一部に搭載されているテキスト読み上げ技術を提供する予定であると発表した。
Cloud Text-to-Speechは、新しいアプリ開発者がこの記事をユーザーに読み上げたり、自然言語でユーザーに話しかけたいコネクテッドデバイスの一部として使用したりできます。GoogleマップやGoogleアシスタントに搭載されているこの技術は、12言語で32種類の音声をサポートしており、開発者は読み上げ速度やピッチを調整するためのノブをいくつか用意しています。
Googleは、クラウド・テキスト読み上げ機能に、AI部門Deepmindが開発した技術を採用しています。WaveNetは、コンピューターで生成された音声をコンピューターらしく聞こえないように設計されており、クラウド・テキスト読み上げ機能で利用可能な新バージョンでは、GoogleのクラウドTPU機械学習プロセッサを使用して、実際の音声の特徴を認識するようにトレーニングした後、リアルな音声出力を生成します。
Amazon Web ServicesはAmazon Pollyという同様のサービスを提供しており、Microsoft Azureにもこの種のアプリケーション向けのBing APIがあります。Cloud Text-to-Speechがこれら2つのサービスとどのように比較されるかはすぐには明らかではありませんでしたが、Googleによると、新しいWaveNetサービスの出力結果を評価した人間のテスターは、以前のバージョンよりも人間の声に非常に近いと感じたとのことです。

Amazon EchoやGoogle Homeといったデバイスの売上急増により、音声入出力は家電製品やクラウドサービスにおいて大きな割合を占めるようになっています。また、マイクの性能向上に伴い、スマートフォンにおいても音声入出力はますます重要な位置を占めるようになっており、様々なソースからのテキストや音声を正確に再現することは、近い将来、クラウドプロバイダーにとって安定した収益源となるでしょう。