Ipad

50万ドルのAmazon Alexa賞受賞者の秘密:ワシントン大学の「ソーシャルボット」の内側

50万ドルのAmazon Alexa賞受賞者の秘密:ワシントン大学の「ソーシャルボット」の内側
ワシントン大学のSounding Boardチームは、昨年の第1回Alexa Prizeで優勝を果たしました。左から:Hao Cheng氏、Maarten Sap氏、Elizabeth Clark氏、Ari Holtzman氏、Hao Fang氏。(GeekWire写真 / Taylor Soper)

ロボットは人間とどれくらい知的な会話をすることができるのでしょうか?

これは昨年アマゾンが、同社の人工知能搭載音声プラットフォーム(Alexaとも呼ばれる)の限界を試す初のAlexa Prizeコンテストの一環として、何百人もの大学生に課した課題だった。

優勝チームはシアトルにあるAmazonのすぐ裏庭からやって来ました。ワシントン大学の学生5人が開発した「Sounding Board」ソーシャルボットは、ポップカルチャーやニュースなどについて会話を交わす能力で審査員を魅了し、50万ドルの賞金を獲得しました。審査員から5点満点中平均3.17点を獲得し、平均会話時間は10分22秒でした。

サウンディング ボード チームのメンバーであるアリ ホルツマン氏が、火曜日のワシントン大学のイベントで Amazon の Alexa と対話しています。

学生たちは今週、ワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部で開催された同窓会イベントで、Sounding Boardの内部を披露しました。チームは、ソーシャルボットとユーザーとのインタラクションに関わる技術的課題と社会的な課題の両方にどう取り組んだかについて語りました。ソーシャルボットは、音楽の再生や照明の制御といった基本的なタスクだけでなく、ユーザーと有意義な会話を交わす必要がありました。これは、エンジニアが人間とのインタラクションを伴う人工知能サービスをどのように設計しているかを垣間見る、非常に興味深い機会でした。これらのサービスの多くは、今後数年から数十年にわたって社会に大きな影響を与える可能性があります。

「私たちはソーシャルボットを双方向のやり取りとして考えています」と、電気工学の博士課程5年生でサウンディングボードのチームリーダーであるハオ・ファン氏は言う。

Alexa Prizeのチームは、AmazonのクラウドベースのテクノロジーとAlexa Skills Kitを用いてソーシャルボットを設計しました。このコンテストは、AlexaプラットフォームやEchoスピーカーなどの製品にまたがる、AIと音声インタラクションへのAmazonの大きな取り組みの一環です。Amazonは2015年にAlexaプラットフォームを開発者やサードパーティのデバイスメーカーに開放し、先週、ほぼ誰でも独自のAlexaスキルを作成できる新機能を発表しました。

Amazonは、同様の技術に多額の投資を行っている他の大手IT企業と競合している。例えば、Microsoftは長年にわたり、アジアで2億人以上のユーザーを抱える独自のソーシャルボット「XiaoIce」を開発してきた。

AmazonはAlexa Prizeに加え、Alexaプラットフォームの拡大を図る他のプログラムも展開しています。例えば、2015年に設立された1億ドル規模のAlexa Fundは、音声ベースのインタラクションの限界を押し広げる企業への投資に活用されています。また、シアトルを拠点とするAlexa Acceleratorは、Alexa関連のB2CおよびB2B技術に取り組む初期段階の企業を支援しています。

Alexa Prizeに出場するチームは、ソーシャルボットの所有権を保持しますが、Amazonはコンテストに関連して開発された技術またはソフトウェアに対する非独占的ライセンスを保有します。2018年のAlexa Prizeには、新たに8チームが参加します。

Sounding Boardチームがソーシャルボットをどのようにプログラミングしたか、詳しくは以下をお読みください。Alexa Prizeコンテストの詳細については、Wiredの記事をご覧ください。Echoをお持ちの方は、今後1週間、Sounding Boardをお試しください。デバイスに「チャットしよう」と話しかけると、昨年のコンテストで受賞した3人のうち1人が出てきます。UWチームに出会う​​まで、どんどん話しかけてみてください。

アプローチ

Sounding BoardとAlexa Prizeの各出場チームは、ユーザーの発言をテキストで解釈するためにAmazonの自動音声認識サービスを利用し、応答のためにテキスト読み上げ技術を利用しました。しかしその後は、Alexaが会話を継続するために興味深く適切な質問と応答を提供できる堅牢なフレームワークを設計するのは、大学生たちの仕事でした。

「サウンディング ボードは、ユーザーと大量のオンライン コンテンツ (Reddit のユーザー生成コンテンツ、Wikipedia の事実コンテンツ、IMDb のメディア固有のコンテンツ) の間に位置する会話ゲートウェイと考えることができます」と、AI を研究する博士課程の学生、アリ ホルツマン氏は語ります。

ホルツマン氏によると、彼のチームはユーザー中心主義とコンテンツ重視という2つの柱を持つデザイン戦略を採用したという。「ユーザー中心主義」とは、ユーザーの発言に敏感になることを意味する。ソーシャルボットの発言に肯定的な意見を持っているか?否定的な意見を持っていたら、ボットは話題を変えるべきだろうか?そして、ユーザーは誰で、どんなトピックに興味を持っているか?

「彼らは内向的でしょうか?それとも外向的でしょうか?」とホルツマン氏は説明した。「それはコンテンツの違いに関係しています。」

ホルツマン氏は、ソーシャルボットはトピックを提案し、事実を提示する点で巧妙である必要があると述べた。「あまり話すことがないトピックだと、私たちは窮地に陥ってしまう可能性がある」と彼は指摘した。

音声言語理解

ソーシャルボットは会話をするために、ユーザーの発言を理解し、発言を拾い上げて意味を抽出する必要がありました。

「これは人間にとってはかなり簡単な作業ですが、AlexaやSiriに話しかけて何を言おうとしていたのか誤解されたことがあるなら、これが人工知能システムにとってはまだ複雑な問題だということがわかるでしょう」と国語処理を研究する博士課程3年生のエリザベス・クラーク氏は述べた。

Sounding Boardチームは、音声をテキストにマッピングし、そのテキストから意味を抽出するというアプローチを採用しました。その結果、コマンド、質問、トピック、そしてユーザーの反応を区別できる技術が構築されました。


「ユーザーの反応は重要です。なぜなら、私たちが誰かに事実を提示し、その人が『それはとても興味深い』と言った場合と、『それはとても退屈だ』と言った場合では、反応が違ってくるからです」とクラーク氏は説明した。

彼女はまた、1つの応答にはコマンド、質問、トピックなどの組み合わせが含まれる可能性があることにも言及しました。そのため、チームは反応とコマンドの両方を一度に理解するために「多次元表現」を使用しました。

階層型ダイアログマネージャー

システムがユーザーの発言内容を解読すると、「階層型ダイアログマネージャー」が会話の一貫性を保ち、ユーザーのエンゲージメントを維持します。これは、会話のサブセグメントを指示する「ミニスキル」を切り替える「マスターダイアログマネージャー」と、会話のサブセグメントを指示する「ミニスキル」を切り替える「マスターダイアログマネージャー」を組み合わせたものです。

文脈言語モデリングと社会科学におけるNLPアプリケーションを研究する博士課程の学生、マールテン・サップ氏は、サウンディングボードチームが開発した重要なミニスキルの一つが、社会心理学と人格理論に着想を得た性格分析ツールであると指摘しました。その目的は、ユーザーにとってより関連性の高いコンテンツを提供することでした。

「私たちは、様々な性格を持つユーザーにとって、より関連性の高いコンテンツを提供したいと考えました」と彼は語った。「ユーザーに性格に関する質問をし、それを5つの異なる性格特性にマッピングする必要がありました。」

ダイアログ管理のもう 1 つの部分は、遷移をスムーズにすることです。たとえば、ユーザーに記事を読んだかどうかを尋ねるなどです。

「もしユーザーが反応しない場合は、一時停止を聞き、次に進みたい場合は『次へ』と言うようにユーザーに尋ねることができます」とサップ氏は語った。

コンテンツマネージャー

ソーシャルボットが会話をするためには、様々なトピックを網羅した膨大な情報が必要でした。Sounding Boardは、インターネットをクロールし、Redditなどのサイト上のユーザー生成データから、より正式な記事まで、様々なソースから情報を抽出するナレッジグラフを用いてコンテンツシステムを構築しました。

自然言語処理と機械学習を研究する博士課程の学生、ハオ・チェン氏は、チームは不適切なコンテンツをフィルタリングするためのソーシャルボートのプログラミングに多くの時間を費やしたと述べた。また、ポジティブで元気づけられるコンテンツを表示することにも重点を置いた。

30万件のトピックをカバーする8万件のエントリを持つナレッジグラフは、毎日更新されました。上のスライドは、ソーシャルボットがニュース記事(中央)から会話を開始し、ユーザーが記事のどの部分に興味を持っているかに応じて、会話をさまざまな方向に展開していく様子を示しています。

改善

Sounding BoardがAlexa Prizeを受賞した重要な要素の一つは、チームが時間をかけてソーシャルボットを改良してきた点です。学生たちはやり取りの記録を徹底的に調べ、会話がうまくいかなかった箇所を見つけ出し、将来の失敗を防ぐためにシステムをどのように調整すべきかを考え出しました。彼らは、良い話題とは何か、人々が話題に飽きたかどうかを判断する方法、異なる種類のコンテンツのバランスを取る方法など、様々なことを理解することができました。

「これらは、人々がソーシャルボットとどのようにやり取りするかを観察するまで、うまく答えられなかった疑問のほんの一部です」とクラーク氏は述べた。「会話ログから共通の問題を特定することで、解決策をブレインストーミングすることができました。」

Amazonの第1回Alexa Prizeを受賞したUW Sounding Boardチーム(左から:Hao Fang、Hao Cheng、Ari Holtzman、Mari Ostendorf、Maarten Sap、Elizabeth Clark、Yejin Choi)。(UW提供写真)