Watch

UWのリップシンクオバマが、オーディオクリップをリアルなビデオに変換する新しい技術を実演

UWのリップシンクオバマが、オーディオクリップをリアルなビデオに変換する新しい技術を実演

カート・シュロッサー

オーディオからのUWリップシンク
例えば、オバマ前大統領が選挙イベントで医療保険制度について語る音声クリップと、大統領執務室での週次演説の既存ビデオがあれば、ワシントン大学の新しいシステムは、オバマ大統領が医療保険制度について語るリアルなリップシンクビデオを合成できる。(ワシントン大学のスクリーンショット)

ワシントン大学の研究者たちは、コンピュータービジョン分野における画期的な技術を実証するため、バラク・オバマ前大統領の言葉を本人の口から発音させる実験を行っている。音声クリップをリアルなリップシンク動画に変換することで、動く顔を歴史的な音声録音に応用したり、ビデオ会議の効率化に活用したりできる可能性がある。

この結果は、コンピュータグラフィックスとインタラクティブ技術の主要会議であるSIGGRAPH 2017で8月2日に発表される論文で詳細に説明されています。オバマ大統領が対象に選ばれたのは、機械学習技術の学習には大量の利用可能なビデオデータが必要となるためです。

このデモンストレーションでは、オバマ大統領が様々な場面で演説する映像を用いて、個々の場面で話された音声を再生します。大統領の週次演説の映像を長時間学習させたリカレントニューラルネットワークが、生の音声特徴から口の形へのマッピングを学習します。研究者のSupasorn Suwajanakorn氏、Steven M. Seitz氏、Ira Kemelmacher-Shlizerman氏は、この手法を次のように要約しています。

各時点における口の形状に基づき、高品質な口のテクスチャを合成し、適切な3Dポーズマッチングと合成することで、入力音声トラックに合わせて対象動画内での発言内容を変化させます。このアプローチにより、フォトリアリスティックな結果が得られます。

「このような成果はこれまで示されたことがありませんでした」と、ワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部のケメルマッハー=シュライザーマン助教授は、ワシントン大学のニュースリリースで述べています。「リアルな音声から動画への変換は、ビデオ会議の効率化といった実用的な応用だけでなく、音声のみから映像を作成することで仮想現実の中で歴史上の人物と会話するといった未来的な応用も可能です。これは、そうした次のステップを可能にする画期的な成果です。」

また、インターネット経由のオーディオストリーミングはビデオよりもはるかに少ない帯域幅を必要とするため、この研究結果はビデオチャットのパフォーマンス向上にもつながる可能性がある。

「SkypeやGoogleハングアウトを視聴すると、接続が途切れ途切れで解像度が低く、非常に不快な場合が多いのですが、音声はなかなか良い場合が多いのです」と、論文の共著者であり、アレン・スクールの教授でもあるザイツ氏は述べた。「ですから、音声を使ってはるかに高品質な動画を制作できれば、素晴らしいことだと思います。」

ワシントン大学によると、この新しい手法は、従来の音声から動画への変換プロセスを改善したもので、従来の音声から動画への変換プロセスでは、スタジオで複数の人物に同じ文を繰り返し発音させ、特定の音と口の形との相関関係を捉える必要がありました。スワジャナコーン氏は、インターネット上など「自然」に存在する動画から学習できるアルゴリズムを開発しました。

「インタビュー、ビデオチャット、映画、テレビ番組など、すでに何百万時間もの動画が存在しています。そして、これらのディープラーニングアルゴリズムは膨大なデータを必要とするため、この方法は最適です」とスワジャナコーン氏は述べた。

この技術は、2015 年末に大きな注目を集め、2016 年の GeekWire Awards でイノベーション オブ ザ イヤーを受賞した過去の研究も組み合わせたものです。

UW リップシンクオーディオビデオ
ニューラルネットワークは、まず音声ファイルの音声を基本的な口の形に変換します。次に、システムはそれらの口の形を既存のターゲット動画に移植・合成し、タイミングを調整することで、新しいスピーチを行う人物のリアルなリップシンク動画を作成します。(UW Graphic)

オバマ氏の音声をオリジナルの動画で聴いてから、無関係な動画に目を移すと、同じ言葉が聞こえてくるのに、ワシントン大学のアルゴリズムが作り出した口の動きに全く気を取られないというのは、実に興味深い。特に、ずっと若い頃のオバマ氏の音声を現在の顔に同期させれば、その効果は計り知れない。

ワシントン大学によると、現時点ではニューラルネットワークは一度に一人の人物を学習するように設計されており、つまりオバマ氏の実際の言葉を話す声だけが合成ビデオを「駆動」するために使用される情報だという。

「誰かの声をそのままオバマビデオにすることはできません」とザイツ氏は述べた。「他人の言葉を誰かの口に当てはめるという道は、意識的に避けました。私たちはただ、誰かが実際に話した言葉をそのまま取り上げ、それをその人のリアルなビデオにしているだけです。」