
新しいAIモデルは、機械が視覚、言語、音を組み合わせて学習する方法を示しています

音を消してテレビを見た経験は、ほとんどの人が一度はあるでしょう。ある程度はストーリーを追うことはできますが、音声がないと、何が起こっているのかを深く理解するのは難しいものです。
同様に、別の部屋から聞こえる音だけを聞いていると、多くの情報を聞き逃しがちです。映像、音、その他の情報を組み合わせるマルチモーダル性は、テレビであれ現実世界であれ、何が起こっているのかを理解する上で大きな助けとなります。
人工知能にも同様のことが当てはまるようです。MERLOT RESERVEと呼ばれる新しい質問応答モデルは、独創的な予測を可能にし、強力なマルチモーダル常識理解を明らかにします。このモデルは、アレン人工知能研究所(AI2)、ワシントン大学、エディンバラ大学のチームによって最近開発されました。
セマンティック検索、分析、質問応答(QA)を可能にする新世代AIアプリケーションの一部であるこのシステムは、2,000万本のYouTube動画を「視聴」させることで学習されました。実証された機能は、Cliprなどのスタートアップ企業によって既に商用化されています。
MERLOT RESERVE(略称RESERVE)は、Multimodal Event Representation Learning Over Time(マルチモーダル・イベント表現学習、イベント再入可能監視)の略で、チームが以前に開発したMERLOTモデルを基盤としています。数百万本の動画で事前学習され、画像、音声、書き起こしを組み合わせた入力から学習します。個々のフレームから空間的な学習が可能になり、動画レベルの学習によって時間情報が得られ、時間の経過とともに変化する要素間の関係性を学習します。
「AIが物事を処理する方法は、人間とは異なるでしょう」と、コンピューターサイエンティストでプロジェクトリーダーのローワン・ゼラーズ氏は述べています。「しかし、堅牢なAIシステムを構築したいのであれば、避けて通ることのできない一般原則がいくつかあります。マルチモーダル性は間違いなくその範疇に入ると思います。」

私たちはダイナミックな世界に生きているため、研究チームは視覚、言語、そして音から同時に学習する機械の構築を模索しました。論文の例の一つでは、誰かがポップコーンを調理している様子が映っています。画像と会話だけでも、それに伴う音を想像することができます。調理されていないポップコーンの粒が鍋の金属面を動き回る音は、やがてふわふわの白いポップコーンに弾ける力強い「ポン」という音に変わるかもしれません。
このような予測は「再入からの学習」として知られており、時間的に同期した相関関係によって、あるモダリティが他のモダリティを教育することが可能になります。一部の発達心理学者は、これが私たちが視覚や世界に関する知識を、多くの場合教師なしで学習する方法であると仮説を立てています。これはまた、RESERVE(Re-entrant Supervision of Events)という名称の由来でもあります。
このモデルは40秒間の動画セグメントでトレーニングされ、テキストと音声の断片はシステムから「マスク」されます。RESERVEは、4つの選択肢から正しいマスクされた断片を選択することで学習します。続いて、回答を正当化するための4つの根拠から回答を選択します。
このアプローチにより、RESERVEは半教師あり学習で最先端の結果を達成しただけでなく、強力なゼロショット予測も可能になりました。この場合、ゼロショット予測の一例として「その人は何をしていますか?」のような質問が挙げられます。これは手動または自動で「その人は[マスク]です」のような文に書き換えられます。その後、モデルは「ポップコーンを焼いている」や「ポップコーンを食べている」といった一連の選択肢から複数選択による予測を行います。
RESERVEは、認知レベルの視覚理解に使用される複数の大規模データセット(VCR、TVQA、Kinetics-600)で微調整されました。RESERVEは最先端の性能を示し、先行研究をそれぞれ5%、7%、1.5%上回りました。音声を組み込むことで、Kinetics-600において91.1%の精度を達成しました。
VCR(Visual Commonsense Reasoning)は、認知レベルの視覚理解に使用される、音声なしの大規模データセットです。TVQAは、6つの人気テレビ番組(『フレンズ』、『ビッグバン★セオリー/ギークなボクらの恋愛法則』、『ハウス MD』、『グレイズ・アナトミー』、『キャッスル』)に基づいた大規模ビデオQAデータセットです。最後に、Kinetics-600は、数百の人間の動作クラスをカバーする65万本のビデオクリップのコレクションです。
6月に開催されるIEEE/CVF国際コンピュータビジョン・パターン認識会議で発表される研究論文によると、RESERVEは競合モデルと比較して大幅な性能向上を示している。例えば、VisualBERTマルチモーダルモデルで使用される浮動小数点演算の5分の1で済む。
プロジェクトチームは、動画で事前学習されたモデルが将来、視覚障碍者や聴覚障碍者を支援したり、動画視聴傾向に関する洞察をマイニングしたりするために利用されることを期待しています。しかし、RESERVEの学習に使用されたデータセットには避けられないバイアスが含まれており、対処する必要があることも認識しています。
音声は、話されている言葉だけでなく、多くの追加的な文脈情報を提供できます。これは私たち自身の経験からすると驚くべきことではありませんが、AIの性能もこれによって大幅に向上するというのは興味深いことです。これは、追加情報を同期させることで、新たな統計的相関関係を生み出せるためかもしれません。
「オーディオには様々な要素があります。声だけでなく、効果音も含まれており、そうした効果音を聞くことで世界への理解が深まります」とゼラーズ氏は指摘した。
「もう一つは声のトーン、つまり人間のコミュニケーションの力学です。音声の文脈を考慮せずに言葉だけを見ていると、多くのことを見逃してしまいます。しかし、誰かが特定の感情を込めてその言葉を発すると、モデルの精度は大幅に向上します。そして実際に、その通りになっていることが分かっています。」
MERLOTとRESERVEは、AI2のMosaicチームの一員であり、機械常識を測定・発展させるシステムの開発に注力しています。機械常識は、人工知能分野において数十年にわたり関心を集めてきた分野です。異なるオブジェクトやプロセス間の現実世界の関係性を要因分析し、予測することができれば、私たちのAIツールはより一層有用なものになるでしょう。
しかし、世界の仕組みに関する一連の事実やルールをシステムに詰め込むだけで、それがうまく機能すると期待するだけでは不十分です。世界はあまりにも複雑で、そうすることはできません。一方、私たちは生まれた瞬間から様々な感覚を通して環境と相互作用することで学習します。世界で何が起こり、なぜ起こるのかを段階的に理解していきます。機械常識プロジェクトの中には、同様のアプローチを採用しているものもあります。MERLOTとRESERVEでは、追加のモダリティを組み込むことで、人間の感覚と同じように追加情報が得られます。
「中長期的には、音声やジェスチャーといった多様な手段で私たちと対話し、私たちが行っていることと関連付けられるAIに本当に期待しています」とZellers氏は述べています。プロジェクト論文「MERLOT RESERVE:視覚、言語、音を通じた神経スクリプト知識」の著者は、Rowan Zellers氏、Jiasen Lu氏、Ximing Lu氏、Youngjae Yu氏、Yanpeng Zhao氏、Mohammadreza Salehi氏、Aditya Kusupati氏、Jack Hessel氏、Ali Farhadi氏、Yejin Choi氏です。RESERVEのデモはAI2でご覧いただけます。