Airpods

Ai2の新しいTulu 3モデルは、オープンソースAIのトレーニング後の画期的な進歩において、テクノロジー大手に匹敵します。

Ai2の新しいTulu 3モデルは、オープンソースAIのトレーニング後の画期的な進歩において、テクノロジー大手に匹敵します。

トッド・ビショップ

アレン人工知能研究所 (Ai2) は、人工知能の世界の重要だがこれまで謎に包まれていた一角に光を当てるべく、オープンソースの AI モデルと関連リソースの新しいセットをリリースします。

Ai2 の Tulu イニシアチブの焦点は、ポストトレーニング、つまり初期トレーニング プロセスの後に言語モデルを改良してその機能を強化し、特定のタスクや実際のアプリケーションに適したものにするプロセスです。

Ai2は、同社の新型Tulu 3モデルは、数学、指示の追従、チャット機能などのスキルのベンチマークにおいて、OpenAI、Mistral、Googleなどの企業の独自モデルに匹敵し、場合によっては上回っていると述べている。

シアトルを拠点とする AI 非営利団体は、木曜日に Tulu 3 モデルを、トレーニング後のプロセスで使用されるデータ、コード、インフラストラクチャとともにリリースし、誰でも使用して構築できるようにします。

Tulu 3リリースの大きな目標の一つは、他のAI研究者やエンジニアに、より効果的な学習後の学習を自ら行うための材料とレシピを提供することです。Tulu 3モデルをベースにしたチャットボットは、こちらからダウンロードできます。これは、Ai2が自社の技術デモを公開し、その研究への注目を高めるという新たな戦略の一環です。

「事後トレーニングは本当に重要です」と、Ai2の自然言語処理担当シニアディレクター、ハンナ・ハジシルジ氏は今週のメディアブリーフィングで述べ、AI言語モデルを使えるようにする上で事後トレーニングが果たす重要な役割について説明した。

彼女は、これはまた困難なプロセスでもあると説明し、AIに後学習で特定の能力を与えると、モデルは前学習プロセスで獲得した一般的な能力を忘れてしまう傾向があると指摘した。そしてこれまで、後学習段階は業界で厳重に秘密にされてきたため、クローズドモデルが有利になっていた。

画像をクリックすると拡大します。Ai2によるこのグラフは、特定のタスクにおけるTulu 3と他のモデルの比較を示しています。

Tulu 3 リリースの目的は、モデルを最初から完全に事前トレーニングするために必要な膨大なコンピューティング リソースを使用せずに、より広範なコミュニティが高品質の事後トレーニング済みモデルを理解し、作成できるようにすることです。

「学習後の段階には、魔法のようなブラックボックス段階があり、これによってモデルは特定のタスクにおいて非常に優れた能力を発揮しながらも、その汎用性は失われません」と、Ai2の最高執行責任者であるソフィー・レブレヒト氏は述べています。彼女は、Tulu 3のリリースは「大きな変革をもたらす」と述べ、人々が高品質でタスクに特化したモデルを作成できるようになると期待しています。

以前の Tulu モデルとの主な違いには、データ キュレーションの進歩、より厳密な評価フレームワーク、および多段階のトレーニング プロセスを含むアルゴリズムとインフラストラクチャの改善などがあります。

「適切なデータを与えれば驚くほど簡単にできることはたくさんあります」と、Ai2の機械学習科学者ネイサン・ランバート氏は、Tulu 3モデルでAi2が実装した進歩について語った。

Ai2は、故マイクロソフト共同創業者のポール・アレン氏によって2014年に設立されました。昨年からはアリ・ファルハディ氏が率いています。ファルハディ氏はAi2のスピンアウト企業であるXnor.aiをCEOとして設立し、2020年には同社を推定2億ドルでアップルに売却しました。これは、Ai2にとってこれまでで最大の商業的成功の一つと言えるでしょう。

Ai2は今年初め、視覚データを斬新な方法で処理するマルチモーダル人工知能モデル「Molmo」をリリースしました。Ai2は昨年2月にオープン言語モデル(OLMo)をリリースしました。これは、生成型AIモデルの台頭における透明性を高めるための、より大規模な取り組みの一環です。

Ai2 はワシントン大学アレン コンピュータサイエンス & エンジニアリング学部と関係があり、同学部には Hajishirzi 氏など Ai2 の研究リーダーが教授として在籍している。

Tulu 3 のトレーニング済みモデルと関連リソースへのリンクについては、こちらをご覧ください。