
アレンAI研究所の新しいモデルは画像内のアイテムを指し示し、産業界に大きなインパクトを与えることを目指している。

チューリングテスト?まあいいや。冷蔵庫チャレンジに挑戦だ。
アレンAI研究所(Ai2)の新しいマルチモーダル人工知能モデルは、視覚データを斬新な方法で処理します。他のAIモデルと同様に画像を分析・説明できるだけでなく、画像の様々な部分を指差し、ピンク色の光る点で注釈を付けるという、より高度な機能も備えています。
これは「Molmo」と呼ばれ、実際には10億から720億のパラメータを持つ4つのモデルで構成されています。シアトルを拠点とするAI非営利団体のリーダーたちは、MolmoはAIへのオープンなアプローチの力を示し、高品質の学習データの価値を証明し、AIエージェント、ロボット、拡張現実(AR)および仮想現実(VR)の新たな可能性を切り開くと述べています。
しかし、水曜日の朝の発表に先立ち、Molmo のデモ サイトにアクセスできたので、別の領域、つまり自宅の冷蔵庫でこの技術をテストすることにした。つまり、一部の人間が困惑することで知られるタスクで AI に挑戦してみることにしたのだ。
モルモは、見事な視覚認識力を発揮し、上の写真のようにペットボトルが裏返っていたにもかかわらず、冷蔵庫のドアの内側にあるケチャップを正確に指し示しました。引き出しの中のレタスとブドウ、1段目と2段目のヨーグルト、そして鶏肉のパックも見つけました。
ちなみに、モルモは一番下の棚の奥に隠してあったビール瓶を見つけられなかったようです。画像では「Modelo」のラベルがかろうじて見えているにもかかわらずです。ええ、私も同感です。誰にでも改善の余地はあるものです。
家庭用技術のテストはさておき、舞台裏では多くのことが行われています。
Ai2は人工知能に対してオープンなアプローチを採用しています。つまり、研究者や開発者が理解し、自ら活用できるよう、トレーニングデータ、アノテーション、基盤となるコード、モデルの重み、その他のデータを公開しています。これは、OpenAI、Google、Anthropicなどの企業が採用している独自のアプローチとは対照的です。

Ai2のCEO、アリ・ファルハディ氏は火曜日、シアトルのレイク・ユニオン北部にある同非営利団体本部で記者団に対し、モルモは、オープンモデルが主要なパフォーマンス基準において今や独自の代替モデルに匹敵できることを示していると語った。
ファルハディ氏は、こうしたベンチマークは科学的な欠陥があるため好きではないと警告しながらも、業界では広く使われていることを認め、より大きな主張をするためにそれを示しました。
「オープンとクローズが非常に近づいてきている」と彼は語った。

さらに、小型モデルでも大型モデルと同等の性能を発揮しています。例えば、10億パラメータのMolmo軽量版は、Microsoftが今年初めに投資したフランスのAIスタートアップ企業Mistral AIが先週リリースした120億パラメータのPixtral 12Bモデルと同等の性能を発揮します。
「サイズが小さくなったことは重要な要因です。なぜなら、これらのデバイスをスマートフォン、ウェアラブル、デスクトップ、ラップトップで実行できるようになり、これらのモデルで実行できることの範囲が広がるからです」とファルハディ氏は述べた。
Ai2によれば、同社の最大のMolmo 72Bモデルは、OpenAIのGPT-4V、AnthropicのClaude 3.5、GoogleのGemini 1.5と比べても遜色ないという。
Molmo の発表は、水曜日の Meta Connect カンファレンスに先立って行われ、Facebook の親会社はこのカンファレンスで、オープンソースの Llama 大規模言語モデルの最新バージョンを披露すると予想されている。
ファルハディ氏によると、Molmoの重要な差別化要因は、Ai2が高品質でキュレーションされたデータに重点を置いていることです。大規模でノイズの多いウェブクロールデータセットに頼るのではなく、Momoは小規模ながらも高品質なデータセットで学習し、人間による丁寧なアノテーションを用いています。これにより、モデルの精度と信頼性が向上します。
今週Ai2で行われたデモで、主任研究員のマット・デイトケ氏は、シアトルのパイク・プレイス・マーケットの賑やかな入口の写真から、モルモが細部まで識別する能力と、写真に写っている犬の数を識別して数える能力を披露しました。さらに、舌を出している犬の数までもモルモは数えることができました。
もうひとつの注目すべき(象徴的ではあるが)進歩は、Molmo が従来の時計の文字盤から時刻を読み取ることができることだ。これは他の AI モデルが苦労して実現してきたことだ。
Molmoの視覚認識機能にはウェブページの読み取り機能も含まれており、開発者はこのモデルを用いて新しい形態の自律型AIエージェントを開発できる可能性があります。例えば、Ai2のハイライト動画(上記)には、スターバックスのウェブサイトを閲覧し、コーヒーを注文するAIエージェントが登場しています。

故マイクロソフト共同創業者ポール・アレン氏によって設立されたAi2は、ファルハディ氏が1年以上にわたり率いてきた。ファルハディ氏は以前、Ai2のスピンアウト企業であるXnor.aiを設立し、CEOとして率いていた。そして2020年に同社を推定2億ドルでアップルに売却した。これは、Ai2にとってこれまでで最大の商業的成功の一つと言える。
ファルハディ氏はアップルの機械学習イニシアチブを率いた後、2023年7月にAi2に復帰した。
同研究所は昨年2月、生成AIモデルの発展に透明性をもたらすための大規模な取り組みの一環として、オープン言語モデル(OLMo)をリリースしました。OLMoは2024年のGeekWire Awardsでイノベーション・オブ・ザ・イヤーを受賞しました。
非営利の AI 研究機関である Ai2 は、独自の製品の開発に重点を置くのではなく、社会に役立つ AI のブレークスルーを追求し、その技術を他の人が使用して学習できるように提供しています。
しかし、Ai2 は今回、Molmo デモ サイトを通じてより公的なアプローチを取り、その使命を果たすためにこの技術に新たな注目を集めることを目指しています。
「ライブデモを公開するのは今回が初めてです」とファルハディ氏は、多少の不安を抱きつつも述べた。「安全性を確保し、おかしな動きをしないよう最善を尽くしました。しかし、こうしたモデルでは何が起こるか全く予測できません。これは私たちにとって、この戦略がうまくいくかどうかを見極め、学ぶための実験なのです。」