
アレン研究所のAristo AIシステムがついに8年生の理科テストに合格

シアトルの億万長者の故ポール・アレン氏が研究者たちに、中学2年生の理科のテストに合格できるほど賢い人工知能プログラムを開発するよう挑戦してから4年、その偉業が地元のチームによって達成されたと宣言された。
アレン人工知能研究所(AI2)は本日、同社のAristoソフトウェアが中学2年生向けの多肢選択式テストで90%以上の得点を獲得し、高校3年生向けのテストでも80%以上の得点を獲得したと発表した。
もちろん、注意点もあります。ニューヨーク州立大学リージェンツ校の適性試験をベースとしたこの試験では、図や写真の解釈を必要とする問題は除外されていました。これらの問題は、Aristoにはまだプログラムされていない視覚的な解釈スキルを必要としていたでしょう。また、直接的な回答を求める問題(つまり、記述式問題)も除外されていました。さらに、Aristoは、本来訓練されている科学分野以外では役に立たなかったでしょう。
それでも、この演習は、賞金8万ドルのアレンAIサイエンスチャレンジに参加したすべてのプログラムが不合格となった2016年以降、AIがどれだけ進歩したかを示している。
「これは画期的な成果です。なぜなら、ある程度の自然言語理解、推論、そして常識さえも求められる標準テスト問題において、驚くべき結果が出ているからです」と、AI2のCEO、オレン・エツィオーニ氏はGeekWireへのメールで述べた。「これは、標準的な研究ベンチマークや囲碁のようなボードゲームとは大きく異なります。1年前でさえ、中学2年生と高校3年生の理科問題でこれほど急速な進歩が見られるとは誰も予想していなかったでしょう!」
AI2 科学クイズ:アリストと知恵比べ(2016年頃)
この研究は、AI2のELMoプログラムや、シアトルのGoogle研究施設で開発されたBERTプログラムなど、言語解釈と質問応答を行う一連のAIエージェントを基盤としています。Aristoは、データベースで回答を検索するだけのエージェントから、関連する概念のリスト(タプルと呼ばれる)をチェックするエージェント、定性的な推論を行うエージェントまで、8種類の問題解決エージェントを活用しています。
各問題解決プログラムは、好ましい多肢選択解答のスコアを生成し、Aristoはそれらのスコアに重み付けを行って最も可能性の高い選択肢を選択します。プログラムは、トレーニングとキャリブレーションを繰り返すことで、パフォーマンスを最適化します。
例えば、ある質問はこうです。「鉄の塊が溶けると、その中の粒子はどのような影響を受けるでしょうか?(A)粒子の質量は増加する。(B)粒子のエネルギーは減少する。(C)粒子の動きが速くなる。(D)粒子の体積は増加する。」
この質問に答えるために、アリストは、粒子の熱が増加すると粒子の移動速度が速くなるという知識を思い出し、「溶けた」という用語を「熱」に関連付け、「より速く」という用語を「より急速に」に関連付けて、正しい選択肢として C を評価します。
様々な問題解決アプローチを組み合わせることで、アリストは2016年の8年生(中学2年生)のテストの得点を約60%から91.6%まで引き上げることができました。高校3年生(高校3年生)のテストでも、ほぼ同程度の83.5%の得点を記録しました。

このプロジェクトに関する研究論文の中で、エツィオーニ氏と他のAI2研究者(プロジェクト・アリストのシニアマネージャー、ピーター・クラーク氏を含む)は、このプログラムの合格点は「科学を深く理解し、ポール・アレンの当初の夢であるデジタル・アリストテレスを実現するマシンへの長い道のりの一歩に過ぎない」と述べている。
研究者たちは、Aristoのスキルを図形ベースの質問やエッセイ形式の質問にも拡張することを目指しています。最終的には、この技術によって、中学2年生だけでなく大人にとっても頭を悩ませる質問に対して自然言語で回答を提供するという点で、最先端の技術を飛躍的に向上させるはずです。
これにより、Amazon の Alexa、Microsoft の Cortana、Apple の Siri の現行バージョンよりも賢いデジタル アシスタントが誕生する可能性があり、また AI アプリケーションやスタートアップのまったく新しい波も生まれることになるでしょう。
エツィオーニ氏とクラーク氏はそれぞれ別のメールで、昨年10月に65歳で亡くなったポール・アレン氏に敬意を表した。そして2人とも、アレン氏はもっと多くのことを望んでいるだろうと述べた。
「ポールはきっと喜んでくれるでしょうが、私たちが現状に甘んじることは許さないでしょう」とエツィオーニ氏はGeekWireに語った。「彼はきっとこう尋ねるでしょう。『言語理解に向けた次の大きな一歩は何ですか?』」
クラーク氏も同意した。「彼は『おめでとう!次は何だ?』と言うだろうと想像します」
9月4日午後1時25分(太平洋標準時)の最新情報:クラーク氏にメールでフォローアップの質問を送りました。研究の意義を詳しく説明する回答をいくつかご紹介します。Q&Aは簡潔さと明確さを重視して編集されています(特に質問については)。
GeekWire: このアプローチはIBMのWatsonとどう違うのでしょうか?もしAristoがWatsonと競合したら、どちらが勝つでしょうか?
クラーク氏:「2つのシステムは、全く異なる種類の質問向けに設計されています。Watsonは、百科事典のような「ファクトイド」的な質問、つまり答えがテキストのどこかに明確に、通常は何度も記載されている質問に重点を置いていました。一方、Aristoは、答えが必ずしもどこかに記載されているとは限らず、シナリオに関する推論が必要となるような科学的な質問に答えます。例えば、
- 「オットーはおもちゃの車を床の上を押して進みました。車は木の上では速く進みましたが、カーペットの上で減速して止まりました。車がカーペットに到達したときに何が起こったのかを最もよく説明できるのはどれですか? (A) 摩擦が増加した (B) 摩擦が減少した…」
- 「市の行政当局は、(1)駐車料金の引き下げ、(2)駐車場の拡張、(3)ガソリン価格の引き下げ、(4)バスや地下鉄の運賃の引き下げによって、省エネを促進できる。」
「そのままでは、ワトソンは科学の問題に苦戦するでしょうし、アリストは『Jeopardy』の難解な言い回しに苦戦するでしょう。お互いのテストに不合格になるでしょう。」
内部的にも両者は大きく異なります。特に、Watsonはディープラーニングを使用していません(ディープラーニング技術が登場する以前に開発されました)。一方、Aristoはディープラーニングを多用しています。Watsonには、答えを探すための様々な方法を試すモジュールが多数ありました。Aristoには、ルックアップ、複数の推論手法、言語モデルなど、質問に答えるための様々な方法を試すモジュールがいくつか(8つ)あります。
Q: いつもの注意事項を教えてください。例えば、画像付きの問題はコンピュータービジョンが必要となるため使用しませんでした。他に注意事項はありますか?
A:「Aristoは、いくつかの特殊なケースを除いて、図表を使った質問にうまく対応できません。例えば、Aristoは食物連鎖に関する質問には答えられますが、地図の読み取りや棒グラフの分析を必要とする質問には答えられません。また、仮定の状況への対応も困難です。例えば、「植物の葉をむしり取ると、どうなるでしょうか?」という質問にはAristoは苦戦します。 良い答えは、植物が自分で栄養を作れなくなるということです。しかし、Aristoはこの質問には、システムが架空の世界を作り出し、その世界で何が起こるかを想像する必要があるため、苦戦します。最後に、私たちのベンチマークは多肢選択式テストであり、これもまた限界です。」
Q: 潜在的な応用について少しお話しいただけますか?Watsonのような「質問応答」プログラムを想定していますか?それとも、もっと斬新な応用を想定していますか?
A:「Aristoの長期的な目標は、単に科学の試験に合格することだけではありません。科学をより深く理解し、多くの応用が可能なシステムを構築することです。特に有望な分野は3つあります。1つ目は教育と個別教育の分野で、Aristoは個別指導を提供することで、子供たちの科学理解を支援することができます。2つ目は科学者の支援です。Aristoが実験室で科学者に科学的概念や過去の研究に関する背景情報を提供する様子を想像できます。そして、長期的には、Aristoは科学的発見そのものにも貢献し、医学や工学といった分野において、これまで人々ができなかった点と点を結びつける可能性を秘めています。もちろん、Aristoがこれらの目標を達成するにはまだ長い道のりがありますが、Regents Science試験でこれほど優れた成績を収めたことは、大きな前進です。」
AI2 チームの論文「ニューヨーク州リージェンツの理科試験で「F」から「A」へ: Aristo プロジェクトの概要」の著者には、Clark 氏と Etzioni 氏のほか、Tushar Khot 氏、Bhavana Dalvi Mishra 氏、Kyle Richardson 氏、Ashish Sabharwal 氏、Carissa Schoenick 氏、Oyvind Tafjord 氏、Niket Tandon 氏、Sumithra Bhakthavatsalam 氏、Dirk Groeneveld 氏、Michal Guerquin 氏が含まれています。