
AI2はGPT-3を上回ると主張する質問応答モデルのデモを公開した。

デジタル時代の幕開け以来、私たちは答えを求めてコンピューターに頼ってきました。このことが特に顕著に表れているのが、質問応答(QA)と呼ばれるコンピューターサイエンスの分野です。自然言語処理と情報検索の分野にまたがるQAは、当初は人手で作成された知識ベースを用いて質問に答えていました。しかし今日では、これらのシステムは機械学習やOpenAIのGPT-3のような事前学習済み言語モデルを用いて結果を出すことが多くなっています。
こうしたQAモデルの中でも最新かつ最も革新的なものの一つが、シアトルのアレンAI研究所(AI2)で最近開発されました。「Multi-angle c(q)uestion answering(多角的な質問への回答)」を意味するMacawは、オープンソースプロジェクトとして開発され、GitHubを通じてコミュニティに公開されています。
Macawの仕組みをご覧になりたい方は、AI2が本日からインタラクティブなデモを公開しています。デモでは、Macawの回答を探索し、ベンチマークとなる一連の質問に対してGPT-3言語モデルが出した回答と比較することができます。
Macawは、Googleの事前学習済みオープンソース言語モデルT5をベースに構築されています。このモデルは、よく知られているGPT-3言語モデルの10分の1以下のサイズです。しかし、そのサイズがかなり小さいにもかかわらず、MacawはChallenge300(質問応答システムの様々な限界に挑戦するために設計された300問の質問スイート)において、GPT-3を10%以上上回るパフォーマンスを発揮しました。他の3つのQAシステムとのパフォーマンス比較では、Macawのスコアは75%でした。一方、GPT-3とAI2のJurassic-1はどちらも65%、GoogleのT5-CBQAは57%でした。(T5-Closed Book QA)
「私にとって非常に興味深いのは、Macawが非常に驚くべき答えを出すことです。長年AIに携わってきた私のような人間でさえ、驚くほど驚かされるほどです」と、AI2のプロジェクトリーダー兼シニアリサーチマネージャーであるピーター・クラーク氏は述べた。クラーク氏は30年以上にわたり人工知能(AI)分野で活躍している。

既存の事前学習済みQAシステムの中で、GPT-3のFew-Shotモデルに匹敵するパフォーマンスを発揮したものはこれまでありませんでした。Few-Shotモデルは、限られた数のサンプルに基づいて回答を生成します。
しかし、それはMacawが登場する前の話です。GPT-3が1750億個のパラメータに基づいているのに対し、MacawのT5モデルはわずか110億個のパラメータしか使用していないことを考えると、MacawとGPT-3の相対的なパフォーマンスは直感に反するように思えるかもしれません。これらのパラメータは、モデルのニューラルネットワークにおける重みとバイアスです。これは、事前学習済み言語モデルの規模と全体的な複雑さを示す一般的な指標と考えることができます。近年、規模の拡大に伴い、機能も向上しています。しかし、Macawの品質保証へのアプローチは大きな違いを生み出します。
初期のQAシステムの多くは、構造化されたデータベースにクエリを実行して回答を得ていました。つまり、質問を入力すると、システムが対応する回答を出力するというものでした。しかし近年のQAシステムは、事前学習済みの言語モデルをベースとしており、これにより汎用性が大幅に向上しています。Macawの場合、その多角的なアプローチにより、入力と出力の様々な組み合わせを用いて、驚くほど優れた結果を得ることができます。
「一つの組み合わせだけを与えるのではなく、様々な組み合わせを与えています」とクラーク氏は説明する。「これには二つの利点があります。一つは、原理的に、これらすべての個々のタスクにおけるパフォーマンスが向上するはずです。もう一つは、システムの使用に少し柔軟性が増すことです。」
Macawは、入力と出力として「スロット」の組み合わせを使用することでこれを実現します。これらのスロットとは、コンテキスト、質問、複数選択オプション、回答、説明です。異なる「角度」やこれらのスロットの組み合わせを入力として使用することで、異なる、多くの場合より正確な出力を生成できます。(下図参照)

例えば、質問とその文脈を入力すると、回答が得られます。あるいは、Macawに質問、回答、文脈を入力すると、システムは複数の選択肢を出力として返します。Macawは回答に付随する説明を生成することもできますが、研究者たちは、このモデルが生成する他の種類の結果よりも質が低いと考えています。
「質問と回答の説明を生成するためにこれを使いました」とクラーク氏は説明する。「つまり、『この質問に対する答えはわかっています。説明してもらえますか?』と問うことができるのです。そして、Macaw はまさにそれを実現できたのです。」
Macawの出力は、入力と出力を様々な組み合わせで再帰的に組み立てることでさらに改善され、システムにフィードバックすることで最終的な出力の精度が向上することがよくあります。その結果、はるかに強力な「ゼロショット」性能が得られます。ここでのゼロショットとは、Macawが事前にラベル付けされた例を持たない質問に対する回答を生成することを指します。これは一種の推論、つまり人間が行う推論の一種であり、証拠に基づいて結論を導き出します。このシステムがこの点で私たちほど優れていないのは当然ですが、それでも印象的です。
Macaw が答えに辿り着く方法は私たちとは全く異なりますが、私たちの推論方法と少し似ています。複数の情報は、たとえすべてが直接関連しているわけではないとしても、単一の項目やデータポイントよりも役立つ場合が多いのです。また、状況によって結論が変わることもあります。ある程度、Macaw にも同じことが言えます。
人工知能における継続的な課題の一つは、人間と同じように世界に関する一般的な常識を人工知能に与えることです。この目標達成のため、AI2はMosaicプロジェクトを立ち上げました。これは、チェ・イェジン氏が率いるチームで、機械による常識的推論の開発に重点を置いています。
しかし、Macawは数百万もの現実世界の質問と回答を学習した結果、かなりのレベルの常識も備えています。ゼロショット推論能力と組み合わせることで、Macawと他の常識システムが将来的に相互にサポートし合い、互いの能力を高め合うようになる可能性も考えられます。
クラーク氏もこの点を認め、「両チームには大きな重複があり、非常に緊密に連携しています」と述べています。Macawのアプローチと手法の詳細については、AI2のオイヴィンド・タフィヨルド氏とピーター・クラーク氏による研究論文「Macawによる汎用質問応答」をご覧ください。