Ipad

人工知能の芸術:マイクロソフトのボットが、あなたが説明したものをピクセル単位で描画します

人工知能の芸術:マイクロソフトのボットが、あなたが説明したものをピクセル単位で描画します

アラン・ボイル

ボットによる鳥の絵
この一連の画像は、描画ボットが黄色い体、黒い翼、短いくちばしを持つ鳥の画像を徐々に作成していく様子を示しています。(Tao Xu 他、Microsoft 経由)

絵を注文したいですか?例えば、黄色い冠をかぶり、目の周りに黒い輪がある鳥の絵が欲しいとか。あるいは、ブロッコリー、ニンジン、玉ねぎが渦巻くパスタの静物画が欲しいとか。

今ではそのためのボットが存在します。

研究者たちは、コンピュータービジョンや自然言語処理などの人工知能ツールを活用し、説明的なキャプションだけに基づいてゼロから絵を描くことができる「描画ボット」をプログラムした。

「Bingで鳥を検索すると、鳥の写真が表示されます。しかし、ここではコンピューターがピクセルごとに、ゼロから画像を作成しています」と、マイクロソフトの研究員であるシャオドン・ホー氏はこのプロジェクトの報告書で述べています。「これらの鳥は現実世界には存在しないかもしれません。コンピューターが想像した鳥の一面に過ぎないのです。」

彼は、ワシントン州レドモンドのマイクロソフト研究所のディープラーニング テクノロジー センターの主任研究者および研究マネージャーとして、数年にわたって人工知能の創造的な最前線を探求してきました。

彼と彼の同僚は、画像の分析に基づいて写真のキャプションを自動的に作成できるプログラム「CaptionBot」の開発から始めました。その後、視覚障害者に視覚シーンで何が起こっているかを伝えるソフトウェアツール「Seeing AI」を開発しました。

「今度はテキストを使って画像を生成したいので、これは循環だ」と、マイクロソフトの何氏のグループの博士研究員であるQiuyuan Huang氏は言う。

テキスト キャプションから画像を生成するのは、画像に基づいてテキストを生成するよりも困難です。その理由は単純で、アーティストがキャプションに記載されていない詳細を記入する必要があるからです。

「つまり、画像の欠けている部分を想像するには、人工知能で機械学習アルゴリズムを実行する必要があるということです」と何氏のチームの準研究員、ペンチュアン・チャン氏は言う。

研究チームは、生成的敵対ネットワーク(GAN)と呼ばれる手法を採用しました。まず、説明用語と画像間の関連性を学習し、それに基づいてコンピュータモデルが画像を生成します。次に、並列モデルが画像の真正性を検証します。生成モデルと識別モデルを相互にやり取りすることで、画像の外観が微調整されます。

もう一つ工夫が必要です。GANシステムが説明的なキャプションから画像を一段階で生成しようとすると、画像内の要素が混ざり合ってしまう傾向があります。彼のチームは、キャプションを個々の単語に分解し、それらの単語を画像の特定の領域に一致させるようにシステムを微調整しました。

Attentional GAN(AttnGAN)として知られるこのアプローチは、人間のアーティストが絵を描く際に様々な部分に注意を集中させる方法に似ています。「注意は人間の概念です。私たちは数学を用いて注意を計算的に表現しています」とHe氏は述べています。

システムは学習を進めるにつれて、芸術作品の創作に必要な常識を吸収していきます。ほとんどの写真には小枝に止まっている鳥が描かれているため、ボットは指示されない限り、鳥の写真に小枝を追加します。

クレイジーな写真
描画ボットは、非日常的なシナリオの説明をリアルな画像に変換するのに苦労しました。(Tao Xu 他)

しかし、説明があまりにも奇抜すぎると、絵も奇抜になってしまいます。例えば、ボットに「湖に浮かぶ赤い2階建てバス」の絵を描くように指示すると、結果として、山々に囲まれた湖に浮かぶ、ボートとバスを足して2で割ったような、ぼやけて水滴が垂れたような画像が出来上がります。

「この画像は、ボットが、ボートが湖に浮かんでいるという認識と、バスというテキスト仕様との間で葛藤していたことを示唆している」とジョン・ローチ氏はマイクロソフトの AI ブログの本日のレポートで書いている。

ArXivプレプリントサーバーに掲載された研究論文で説明されているこのシステムは、テキストから画像を生成する従来のGANモデルを大幅に上回った。

マイクロソフトのHe氏は、このドローイングボットのより高度なバージョンは、アーティスト、インテリアデザイナー、写真編集者、さらには映画製作者のためのデジタルアシスタントとして役立つ可能性があると述べた。理論的には、テキストから画像へのジェネレーターは、脚本上の場所の描写をフルフレームのアニメーションシーンに変換できる。これは、ジェームズ・キャメロン監督が遠い将来に公開予定の『アバター』続編で念頭に置いておきたい機能かもしれない。

「AttnGAN: Fine-Grained Text to Image Generation With Attentional Generative Adversarial Networks」の著者には、マイクロソフトの Xiaodong He、Pengchuan Zhang、Qiuyuan Huang に加え、マイクロソフトの元インターンのリーハイ大学の Tao Xu とデューク大学の Zhe Gan、さらにラトガース大学の Han Zhang とリーハイ大学の Xiaolei Huang も含まれています。