Vision

Ai2がMolmoActを発表: 3Dで推論し、リアルタイムで調整するオープンソースのロボットシステム

Ai2がMolmoActを発表: 3Dで推論し、リアルタイムで調整するオープンソースのロボットシステム

トッド・ビショップ

Ai2の研究者、Jiafei Duan氏が、MolmoActがロボットアームを制御する様子を披露した。(GeekWire Photo / Todd Bishop)

アレンAI研究所は、ロボットが乱雑な現実世界の環境をナビゲートするのを支援するための斬新なアプローチを使用する新しいAIロボットシステムをリリースし、モデルのコード、データ、トレーニング方法のすべてをオープンソースの原則に基づいて公開しました。

MolmoActと呼ばれるこのシステムは、2D画像を3D画像に変換し、動作前に動作をプレビューし、人間のオペレーターがリアルタイムで動作を調整できるようにします。これは、独自のデータセットで学習された、不透明なブラックボックスのように動作することが多い既存のロボットモデルとは異なります。

Ai2 は、このシステムがロボット研究者、企業、開発者によって、家庭、倉庫、災害対応現場などの非構造化環境で動作できるロボットを構築するための基盤として使用されることを期待しています。

先週、シアトルのレイクユニオン北部にあるAi2の新本社で行われたデモでは、研究者らが、MolmoActが自然言語のコマンドを解釈し、ロボットアームにカップやぬいぐるみなどの家庭用品を拾い上げて特定の場所に移動させる様子を披露した。 

研究者たちは、AI2が包括的なオープンソースAIツールとテクノロジーを開発するという幅広い取り組みの一環だと説明している。シアトルを拠点とするこの研究機関は、故マイクロソフト共同創業者のポール・アレン氏によって2014年に設立され、一部は彼の遺産から資金提供を受けている。

Ai2 の主力製品である OLMo 大規模言語モデルは、公開されているトレーニング データ、コード、モデルの重みを備えた、独自システムに代わる完全に透明な代替手段であり、AI 開発における研究と公的説明責任をサポートするように設計されています。

同研究所のプロジェクトは「一つの大きな方向」、つまり「推論と言語が可能で、画像や動画を理解し、ロボットを制御し、空間と行動を理解できる」統合AIモデルに向かって進んでいると、Ai2のコンピュータービジョン研究リーダーでワシントン大学アレンスクールの助教授でもあるランジェイ・クリシュナ氏は述べた。

MolmoAct は、画像を理解して説明できる AI2 の Molmo マルチモーダル AI モデルをベースに、3D で推論してロボットの動作を指示する機能を追加しています。