
Amazon Alexaの責任者ロヒット・プラサド氏とのアンビエントコンピューティングの将来に関するQA

2014年にAmazon初のAlexa対応スマートスピーカーが登場したとき、それはいくつかの簡単なタスクを実行できる音声起動の自然言語処理インターフェースという、ある意味目新しいものでした。
時代は進み、現在ではインターネットに接続されたプラットフォームは急速に拡大し、独自の電子エコシステムへと成長しました。Alexa対応デバイスは数万台に上り、販売台数は数億台に達し、Alexaはバーチャルアシスタントとしてほぼどこにでも存在するようになりました。
Alexaはテレビから電子レンジ、イヤホンまであらゆるものに組み込まれていますが、Amazonのアンビエントコンピューティングのビジョンはまだ初期段階にあります。数十億人のユーザーを抱える潜在的市場に対応するために、自然言語処理をはじめとする人工知能の分野では目覚ましい進歩が遂げられてきましたが、まだ改善の余地は大きく残されています。
今後、Amazonはこれらのデバイスが人間のアシスタントとほぼ同等にユーザーを理解し、サポートできるようになることを目指しています。しかし、そのためには、状況に応じた意思決定や推論など、いくつかの分野で大幅な進歩が必要です。
Alexa とアンビエント コンピューティング全般の可能性をさらに深く探るため、Alexa 担当上級副社長兼主任科学者の Rohit Prasad 氏に、プラットフォームの将来と、ますますインテリジェントになる仮想アシスタント プラットフォームに対する Amazon の目標について尋ねました。
リチャード・ヨンク:Alexaは「アンビエント・コンピューティング」と呼ばれることもあります。アンビエントAIの例やユースケースにはどのようなものがありますか?
Rohit Prasad:アンビエントコンピューティングとは、必要な時にだけそこに存在し、必要のない時には背景に溶け込むテクノロジーです。ユーザーのニーズを予測し、邪魔にならずに常に利用可能な状態を保つことで、生活をより便利にします。例えば、Alexaを使えば、ルーティン機能を使って日没時に照明を点灯するなど、家の自動化が可能です。また、Alexa Guardを使えば、ガラスが割れる音や煙探知機の音などをAlexaが検知すると、プロアクティブに通知してくれます。
ヨンク:先日のCogXのプレゼンテーションで、Alexaが「あなたに代わって推論と自律性を実現する」とおっしゃっていましたね。現状と比べて、近い将来にはどのような例が考えられますか?
プラサド:現在、Alexaが異常なセンサーデータに基づいて適切な行動を提案する「Hunches」のような機能があります。例えば、就寝時にガレージのドアが開いていることを知らせてくれたり、プリンターのインクが少なくなったときに便利な再注文をしてくれたりします。最近では、Ring Video Doorbell Proをお持ちの方は、Alexaに代理で訪問者を迎えたり、伝言を受け取ったり、荷物の配達先を教えてもらうこともできます。
全体として、私たちはより文脈に基づいた意思決定へと進歩し、自己学習、つまりAlexaが人間の介入なしに機能を改善・拡張する能力を通じて、推論と自律性において最初の一歩を踏み出しました。昨年は、お客様の潜在的な目的を推測できるAlexaの新機能で、さらなる一歩を踏み出しました。例えば、お客様がビーチの天気を尋ねたとします。Alexaはそのリクエストと他の文脈情報を組み合わせることで、お客様がビーチへの旅行に興味を持っているかもしれないと推測するかもしれません。

ヨンク:エッジコンピューティングとは、コンピューティングの一部をクラウドではなくデバイスの近くで実行する手段です。Alexaの処理の大部分が最終的にエッジで実行され、レイテンシを十分に削減し、フェデレーテッドラーニングをサポートし、プライバシーに関する懸念にも対処できるようになるとお考えですか?
プラサド:2014年にEchoとAlexaを導入して以来、私たちはクラウド、デバイス、エッジでの処理を統合するアプローチを採用してきました。この関係は共生的です。コンピューティングがどこで行われるかは、接続性、レイテンシー、顧客のプライバシーなど、いくつかの要因によって異なります。
例えば、お客様がネットワーク接続が途切れても基本的な機能が動作することを望んでいることを理解しました。その結果、2018年にハイブリッドモードを導入しました。このモードでは、照明やスイッチの制御を含むスマートホームのインテントは、接続が途切れても動作し続けます。これは、接続が断続的になりがちな車内など、外出先でのAlexaの使用にも適用されます。
近年、私たちはニューラルネットワークをデバイス上で効率的に実行し、精度を損なうことなくメモリとコンピューティングフットプリントを最小限に抑えるための様々な技術を追求してきました。現在、AZ1 Neural Edgeプロセッサなどのニューラルアクセラレータを活用し、自然なターンテイキングなど、お客様に新たな体験を提供しています。この機能は今年、デバイス上のアルゴリズムを用いて音声と視覚的な手がかりを融合し、会話の参加者が互いに対話しているのか、それともAlexaと対話しているのかを推測する機能です。
ヨンク:あなたは「未来のAIの柱」の中で、ソーシャルボットとタスクボットに必要な機能をいくつか挙げていますね。これらの機能について、大まかなスケジュールで構いませんので、具体的なタイムラインを教えていただけますか?
プラサド:オープンドメインで複数ターンの会話は未解決の問題です。しかしながら、Alexa Prizeのコンペティションを通して、学術界の学生が会話型AIの発展に取り組んでいるのを大変嬉しく思います。参加チームは、自然言語理解と対話ポリシーの改良により、より魅力的な会話を実現し、最先端のAI技術を向上させています。中には、ユーモアを認識し、ユーモラスな返答を生成したり、文脈に合ったジョークを選んだりする研究に取り組んでいるチームもあります。
これらはAIにとって難しい課題であり、解決には時間がかかります。これらの課題の目標達成には5年から10年かかると考えていますが、会話型AIにおいて私が特に期待しているのは、Alexaチームが最近最優秀論文賞を受賞した分野です。それは、機械学習の知能を高めるために、大規模な事前学習済み言語モデルに常識的な知識グラフを明示的および暗黙的に組み込むというものです。こうした取り組みにより、Alexaはお客様にとってより直感的でインテリジェントなものになるでしょう。

ヨンク:オープンドメインの会話では、トランスフォーマーベースのニューラル応答生成器と知識選択を組み合わせて、より魅力的な応答を生成するとおっしゃっていましたが、簡単に言うと、知識選択はどのように行われるのでしょうか?
プラサド:私たちはオープンドメインの会話の限界を押し広げています。Alexa Prize SocialBot Challenge など、参加する大学チームのために常に革新を続けています。そのようなイノベーションの一つが、ニューラルトランスフォーマーベースの言語ジェネレーター(ニューラルレスポンスジェネレーター、略してNRG)です。対話ポリシーを統合し、世界の知識を融合することで、NRGを拡張し、より優れた応答を生成できるようにしました。このポリシーは最適な応答形式を決定します。例えば、適切な場合、AIの次のターンでは前のターンを認識してから質問するべきです。知識の統合については、Web上で公開されている知識をインデックス化し、対話のコンテキストに最も関連性の高い文を取得しています。NRGの目標は、ポリシー決定に準拠し、知識を含む最適な応答を生成することです。
ヨンク:自然な会話を実現するためには、会話の文脈に基づいた幅広い基盤が理想的です。膨大な個人情報や好みを学習、保存し、アクセスすることで、ユーザー一人ひとりにパーソナライズされた応答を提供する必要があります。これは非常に多くの計算量とストレージを必要とするように思えます。Amazonのハードウェアは、最終的にこれを実現するために必要とされるレベルと比べて、現在どの程度のレベルにあるのでしょうか?
プラサド:ここでエッジでの処理が重要になります。最高の顧客体験を提供するには、例えば部屋の中で誰がデバイスに話しかけているのかを判断するためのコンピュータービジョンといった特定の処理をローカルで実行する必要があります。これは現在、研究と発明が活発に行われている分野であり、私たちのチームは、推論とモデル更新の両方を含む機械学習をデバイス上でより効率的に実行できるように、熱心に取り組んでいます。特に、エッジで効率的に処理できるように、効率的に抽出できる大規模な事前学習済みのディープラーニングベースのモデルに期待しています。
ヨンク:おっしゃるとおり、完全に開発されたアンビエント AI を実現する上で最大の課題は何だと思いますか?
プラサド:私たちのビジョンを実現するための最大の課題は、事後的な対応からプロアクティブな支援へと移行することです。Alexaは異常を検知して警告を発したり(例えば、ガレージのドアが開いたままになっているという予感)、潜在的な目標を達成するためにユーザーのニーズを予測したりできるようになります。AIはこのようなプロアクティブな支援のために事前にプログラムすることも可能ですが、ユースケースが多岐にわたるため、スケールアップは困難です。
したがって、私たちはより汎用的なインテリジェンスへと移行する必要があります。汎用的なインテリジェンスとは、AI が 1) タスク固有の大きなインテリジェンスを必要とせずに複数のタスクを実行する、2) 一連の既知のタスク内の変動に自己適応する、3) 完全に新しいタスクを学習する、という能力です。
Alexa の文脈では、これは、人間の監督を必要とせずに Alexa がより自己学習するようになることを意味します。Alexa を新しいデバイスに簡単に統合できるようにすることでセルフサービス性が高まり、開発者が会話体験を構築する負担が大幅に軽減され、顧客が Alexa をカスタマイズして新しい概念や個人の好みを直接教えることさえ可能になります。さらに、周囲の状態をより自己認識して、顧客のニーズを積極的に予測し、シームレスに支援するようになります。