Watch

AI2がビジュアル理解チャレンジでトップの人工知能システムをリストアップ

AI2がビジュアル理解チャレンジでトップの人工知能システムをリストアップ

アラン・ボイル

ジェスチャーチャレンジ
AI2のシャレードチャレンジでは、視覚システムがリアルな動画に映し出された様々な日常の行動を認識し、分類する必要がありました。これは動画のほんの一部です。(AI2 Photos)

AI分野の世界トップクラスの研究者たちが、シアトルに拠点を置くアレン人工知能研究所が出した3つのコンテストで最高の成績を収め、その実力を証明した。

AI2としても知られるこの研究所は、人工知能(AI)分野における新たな道を切り開くために、マイクロソフトの共同創業者であるポール・アレンによって2014年に設立されました。AI2が過去に実施したチャレンジの一つでは、AIプラットフォームが中学2年生レベルの理科の質問に答える能力をテストしました。

最新の 3 つのチャレンジは、視覚理解、つまり合成視覚と機械学習を使用して現実世界の環境や状況をナビゲートするコンピューター プログラムの能力に焦点を当てています。

これらは単なる学術的な演習ではありません。自動運転車から自動セキュリティ監視、社交的なロボットに至るまで、視覚的な理解は AI アプリケーションに必須です。

12チーム以上がコンテストに参加し、アルゴリズムの精度に基づいて審査されました。3つの課題と結果は以下の通りです。

ジェスチャーアクティビティチャレンジ:コンピュータービジョンアルゴリズムを用いて、人々が日常的な活動を行っている動画を分析しました。例えば、コーヒーを飲む、椅子に座りながら靴を履く、ソファで毛布にくるまりながらノートパソコンを見るといった活動です。アルゴリズムの目的の一つは、2つの活動が同時に行われている場合でも、動画内のすべての活動カテゴリーを分類することでした。もう一つの目的は、動画内のすべての活動の時間枠を特定することでした。

Google DeepMindのTeam Kineticsが、両方の点で優勝しました。AI2は声明の中で、このチャレンジは人間の行動認識における「最先端の精度を大幅に向上させた」と述べています。

THOR チャレンジ:チームのコンピューター ビジョン システムは、視覚的な入力のみに基づいて、フォークやリンゴなどの指定されたターゲット オブジェクトを見つけるために、リビングルームとキッチンのほぼ写真のようにリアルな 30 の仮想シーンをナビゲートする必要がありました。

THOR の最高位は台湾の国立清華大学のチームでした。

教科書の質問回答チャレンジ:コンピュータ アルゴリズムに中学校の理科のカリキュラムからのテキストとグラフィックの情報のデータセットが与えられ、その内容に関する 26,000 を超える質問に答えるように求められました。

AI2は、このコンテストは「非常に接戦だった」と述べたが、ドイツのカールスルーエ工科大学のモニカ・ハウリレット氏とジアド・アルハラ氏が開発したアルゴリズムが、文章問題でトップに立った。シンガポールの南洋理工大学のイー・テイ氏とアンソニー・ルー氏は、図表問題で優勝した。

「このチャレンジの参加者は、TQAのテキスト質問に対する最先端のパフォーマンスを大幅に向上させ、同時に機械学習手法では図表で提示された質問に答えることの難しさを確認した」とAI2は述べた。

上位のテストの点数はAIとしてはかなり良い方だ。しかし、生身の中学生なら落第点だ。文章問題テストの正答率は42%、図解問題テストの正答率は32%だ。

優勝チームの代表者は、ホノルルで開催される2017年コンピュータービジョンおよびパターン認識会議中の水曜日に予定されているワークショップに他のAI研究者とともに参加する予定です。