Watch

AI2の研究者が、画像と音声を使ってAIの能力を高める新しいマルチモーダルアプローチを発表

AI2の研究者が、画像と音声を使ってAIの能力を高める新しいマルチモーダルアプローチを発表
シアトルのアレンAI研究所による新たな研究は、AIの解釈能力と学習能力の向上に役立ち、将来的にはより優れたツールを提供することが期待されます。(AI2画像)

私たちの世界は繊細で複雑な場所であり、様々な感覚を複合的に活用することで初めて理解できます。こうした状況を踏まえ、AI研究者はマルチモーダル戦略を適用し、文脈を考慮した視覚・言語モデルの構築に着手し、AIシステムが世界を認識し解釈する方法の向上を目指しています。 

シアトルに拠点を置くアレンAI研究所(AI2)は、今月初め、人気のテキストのみのコーパスであるc4をマルチモーダルに拡張したオープンデータセットを公開しました。AI2の研究者がマルチモーダルC4(mmc4 )と名付けたこの新しいデータセットは、数十億規模のデータセットにテキストと画像をインターリーブした、公開されているモデルです。このオープンデータセットにより、研究者はAIの解釈能力と学習能力を向上させる新たな方法を探求することができ、将来的により優れたツールを提供することが可能になります。 

「これらのマルチモーダルモデルは、言語だけでなく、画像や音声にも作用します」と、このプロジェクトに携わる研究者の一人、ジャック・ヘッセル氏は述べた。「マルチモーダルC4は私にとって非常に刺激的なものでした。」 

c4コーパスとmmc4コーパスはどちらも、ウェブをクロールし、アーカイブとデータセットを無料で公開している非営利団体Common Crawlが収集したデータから派生しています。Common Crawlは約1ペタバイトのデータを生成し、AWSでホストされています。Googleは2019年にCommon Crawlを利用してColossal Clean Crawled Corpus(c4)を開発しました。このc4はGoogleによって集約され、Text-to-Text Transfer Transformer(T5)モデルのトレーニングに使用されました。 

AI2チームは、クロールから収集した画像をc4にインターリーブすることで拡張し、新しいmmc4データセットを作成しました。この数十億規模の画像コーパスは、関連するテキストを拡張することで、研究者や開発者が自由に利用できるリッチでオープンなデータセットを生み出し、AIモデルの改良に活用できます。

mmc4は、その最初の応用において、このコーパスで学習された最初の公開モデルであるOpenFlamingoの学習データを提供するために使用されました。これは、多様な視覚言語タスクを実行するために、大規模マルチモーダルモデル(LMM)の学習と評価を可能にするフレームワークです。

DeepMindのFlamingoモデルをオープンソースで再現したOpenFlamingoは、その機能をより広く利用できるようにするために開発されました。Flamingoの学習データは公開されていないため、このオープンバージョンでは同じアーキテクチャを実装しようと試みています。そのために、知覚再サンプラーやゲート付きクロスアテンション層などの機能を活用し、複数の画像や動画フレームを関連するテキストと統合しています。

この種の文脈内視覚・言語モデルは、画像とテキストのインターリーブされたシーケンスを入力としてサポートします。重要なのは、少数の例から推論・学習する能力、つまりFew-Shot Learning(少数の事例から推論・学習する能力)を可能にすることです。また、画像間の相互作用を伴う、より複雑なプロンプトも提供します。例えば、2つの異なる画像に共通する特徴について問い合わせることが可能です。

線形割り当てアルゴリズムを用いて画像を長いテキストにインターリーブすることで、モデルは様々なタスクを実行できます。これには、質問に答えたり、料理、旅行、テクノロジーといった日常的なトピックをカバーするタスクを実行したりすることが含まれます。ランダムサンプルの結果から、画像の大部分(90%)がトピックに関連しており、線形割り当てプロセスによって各画像とよく一致する個々の文が頻繁に選択されたことが示されています(78%)。NSFW画像や広告などを除外した後、コーパスには5億8,500万枚の画像と430億の英語トークンがインターリーブされた1億300万の文書が含まれています。

これらを実現するために、研究チームはまずCommon Crawlから元のウェブページを取得し、次にc4から除外されていたダウンロード可能な画像を収集しました。データのクリーニングは、重複除去とコンテンツフィルタリングによって行われ、職場で閲覧できない(NSFW)画像や広​​告などの無関係な画像が除去されました。さらに、顔検出を行い、顔が特定された画像は削除しました。最後に、画像と文章は、グラフ理論に基づくアルゴリズムである二部マッチングと呼ばれる手法を用いてインターリーブされました。このアルゴリズムは、画像をテキスト内のどこに配置すべきかを判断するのに役立ちます。

mmc4やOpenFlamingoのようなマルチモーダルシステムには、他のより基本的なテキストのみの言語フレームワークやモデルとは異なる、いくつかの応用が考えられます。mmc4のような大規模な言語モデルは視覚コンテンツに関する質問に答えることができるため、教育・研修、医療、インテリジェンス業務、そしてUXデザインにおけるアクセシビリティとユーザビリティの向上など、多くの潜在的なユースケースが考えられます。これには、Web画像の代替テキストをより正確に生成することも含まれます。これらのテキストのみによる画像解釈は、障害のあるユーザーがWeb上の画像にアクセスするための手段を提供します。

「画像のアクセシビリティは重要なユースケースの一つだと思います」とヘッセル氏は指摘した。「人間とコンピュータのインタラクションに関する優れた研究は数多くあり、自動化ツールがリード画像の代替テキストを改善するための良い出発点となることを示唆しています。つまり、アクセシビリティの観点から非常に重要なユースケースがあると考えています。」 

コーパスの完全版に加えて、mmc4をより使いやすく、安全で、環境に優しいものにするために、2つの追加サブセットが構築されました。現在、これらには、検出された顔を含む画像を除去することを目的とした少顔サブセットと、より厳格なフィルタリング基準を用いて元のコーパスを1桁縮小するコアサブセットが含まれています。これにより、必要なリソースが削減され、パフォーマンスが向上し、計算サイクル、つまり処理サイクルが削減されるため、実行に必要なエネルギーも削減されます。 

マルチモーダルC4は、AI2のMosaicグループの一員であり、機械の常識的能力を調査・開発しています。この研究の多くはテキストベースですが、mmc4は異なるアプローチを提供しています。ヘッセル氏によると、「Mosaicは常識的推論に焦点を当てており、私たちのグループのメンバーのほとんどはテキストのみのモデルを扱っています。そのため、マルチモーダルモデルに焦点を当てているというのは、やや異例なことです。」

「マルチモーダル C4: テキストがインターリーブされた 10 億規模のオープンな画像コーパス」は、Wanrong Zhu、Jack Hessel、Anas Awadalla、Samir Yitzhak Gadre、Jesse Dodge、Alex Fang、Youngjae Yu、Ludwig Schmidt、William Yang Wang、Yejin Choi による研究です。

OpenFlamingo は、大規模な機械学習モデル、データセット、および関連コードを一般に公開することを目的とした非営利団体である Meta AI と LAION によって開発されました。

マルチモーダル C4 に関する作業は、NIWC Pacific、NSF AI Institute for Foundations of Machine Learning、Open Philanthropy、Google、Allen Institute for AI を通じて DARPA MCS プログラムによって部分的にサポートされました。