
なんとも巧みに話すロボットだ。GoogleのWaveNet AIプログラムは人間のような会話を生み出す。
モニカ・ニッケルズバーグ著

音声合成技術はいまいちだ。コンピューター音声のロボットのような単調な音に、私はいつも少し耳障りに感じていた。これは、最近GeekWire Radioで、編集者のお気に入りの読書アプリを酷評した際にも話題になったことだ。
だからこそ、Googleの新しい音声生成器WaveNetは画期的な進歩と言えるだろう。Googleの人工知能部門DeepMindが開発したこのプログラムは、人間の音声録音を模倣することを学習する。
他の音声合成アプリケーションは、通常、人間の音声録音の断片を再生したり、言語規則に基づいてプログラムされたコンピューター生成の音声を使用したりします。WaveNetは、人間の録音から学習した内容に基づいて音声を生成するため、独特のリズム、男性と女性の話し方、さらには呼吸パターンまでも再現できます。
「感情やアクセントなどの追加情報をモデルに提供することで、音声をさらに多様で興味深いものにすることができる」とグーグルのディープマインドチームはブログ投稿で述べた。
WaveNet が人間のような音声を生成する仕組みについて詳しくは、Google のプログラムに関する論文をご覧ください。
WaveNetの機械学習技術は音楽にも応用できます。研究者たちは、ピアノ曲のデータセットを使ってプログラムを学習させ、独自の風変わりな楽曲を生成させました。
このプログラムはまだ初期段階だが、テクノロジー企業がより自然な音声のAIを開発するために競争する中で、Googleにとって大きな影響を与える可能性がある。
WaveNet の音声および音楽機能のサンプルをここで聞いてください。