Airpods

機械の読み書き?マイクロソフトが巨大なQ&Aデータセットを公開、研究者が人間と同じように質問を読み取って答えるAIツールの構築を支援

機械の読み書き?マイクロソフトが巨大なQ&Aデータセットを公開、研究者が人間と同じように質問を読み取って答えるAIツールの構築を支援

ダン・リッチマン

マイクロソフトのBing検索エンジン部門パートナーグループプログラムマネージャー、ランガン・マジュムダー氏。(写真提供:マイクロソフト)

MS MARCO は巨大な定期船の名前のように聞こえるかもしれません (実際、MS マルコ ポーロにはその名を冠した航海が何回かあります)。

しかし、今回の話は外洋を航海する話ではなく、Microsoft の研究者が公開している、Microsoft MAchine Reading COmprehension の略称である MS MARCO と名付けた新しい大規模なデータセットに関する話です。

マイクロソフトは本日、10万件の質問と回答を収録した膨大なデータベースを公開する計画を発表した。これにより、人工知能の研究者が、機械が「人間と同じように質問を読んで答える」手法を開発する新たな道が拓かれるかもしれない。

マイクロソフトは、匿名化された実世界データに基づき、画像認識や音声認識の進歩と同様に、研究者が機械読解の分野を飛躍的に発展させることを期待していると述べた。このデータベースは無料で公開されており、こちらからアクセスできる。

「汎用人工知能(AGI)の実現に向けて、人間と同じように文書を読み、理解できるようになるための一歩を踏み出す必要があります」と、マイクロソフトのBing検索エンジン部門でプログラムマネージャーを務め、この取り組みを主導するランガン・マジュムダー氏は述べた。「これはまさにその方向への一歩です。」

質問と回答の一部は次のとおりです。「酸素を豊富に含んだ血液は、心臓と体の細胞の間をどのような循環で流れますか?」 (回答: 全身循環)、「カナダに来たばかりですが、OSAP (オンタリオ州学生支援プログラム) の対象になりますか?」 (回答: カナダ国民、永住者、または保護対象者である必要があります)。

現実世界の読解と質疑応答は「読む、処理する、理解する、推論する、推論する、そして最終的に答えを要約するといった複数の難しいタスクを融合させた、極めて困難な取り組みである」と、Microsoft AI and Research が先月発表した MARCO に関する論文には記されている。

マジュムダー氏は、現時点では、複雑な質問に答えられるシステムはまだ初期段階にあると語った。

Bingのような検索エンジンや、Cortana、Siriのようなバーチャルアシスタントは、「ハヌカは何曜日に始まりますか?」「43の2000倍はいくつですか?」といった基本的な質問に答えることができます。しかし多くの場合、検索エンジンやバーチャルアシスタントは直接答えるのではなく、質問者を検索エンジンの検索結果の一覧へと誘導します。ユーザーは必要な情報を得ることはできますが、検索結果をくまなく調べてウェブページで答えを見つける必要があります。

「世界の知識の多くは文書の形で存在するため、機械が人間と同じように文書を読んで理解できるようになれば、こうしたシナリオのすべてを実現できる可能性がある」とマジュムダー氏は語った。

自動質疑応答システムを改善するには、研究者はいわゆるトレーニングデータと呼ばれる強力な情報源を必要とします。MARCOのようなデータセットを用いて、人工知能システムに質問を認識し、回答を作成する方法を学習させ、最終的には、これまでに見たことのない独自の質問に基づいて独自の回答を導き出すシステムを構築できるようになることが期待されています。