Watch

AmazonがAlexaに教えている方法、そして将来この仮想アシスタントが学ぶことを期待していること

AmazonがAlexaに教えている方法、そして将来この仮想アシスタントが学ぶことを期待していること

ジェフ・ホイールライト

AI NEXTテクノロジーカンファレンスに出席したAmazonシニアプリンシパルサイエンティスト、ニッコ・ストロム氏。(GeekWire Photo / Geof Wheelwright)

アマゾンが同社のAlexaをiOSのアマゾンアプリに搭載すると発表した数日後、アマゾンのシニアプリンシパルサイエンティストであるニッコ・ストロム氏が今週末、ワシントン州ベルビューで開催されたAI NEXT技術カンファレンスで講演し、同社の音声対応アシスタントと、より広範な人工知能の取り組みの舞台裏の詳細を披露した。

Amazon EchoとAlexaを開発したチームの創設メンバーであるストロム氏は、AI科学者の聴衆に対し、Alexaベースのデバイスの数の増加(Amazonは公表していないが、Consumer Intelligence Research Partnersは800万台以上と推定している)により、Alexa搭載デバイスの改善と改良に使用できる膨大な量のデータがAmazonに提供されていると語った。

「Alexaを素晴らしいものにし、常に拡張し続けるこれらの要素は、私たちが大量のデータを得ることを意味します」と彼は述べた。「今の時代の特徴の一つは、人々が実際にこれらのデバイスを使うことを好むことです。私は長年この業界にいて、電話システムに携わっていましたが、人々はそれらをあまり使いたがりませんでした。」

ストロム氏は、アマゾンが数百万台のAlexaデバイスから受け取るデータの量を、16歳の若者が幼少期に聞いていたであろう音声データと比較した。16年間で、人は最大14,016時間分の音声を聞き、それに関する「学習データ」を蓄積する可能性があるとストロム氏は述べた(1日に聞く音声の約10%が音声であるという仮定に基づく)。

Amazonは、ユーザーのAlexa対応デバイスから取得した音声データを分析し、速度と精度を向上させるために「大規模分散トレーニング」を使用している。

「当社は顧客から集めた何千時間分ものデータをAmazon S3(Amazon Simple Storage Service)に保存しており、これらのモデルをAWS EC2(Amazon Web Services Elastic Compute Cloud)インスタンスでトレーニングしています」と氏は述べ、同社が受け取る膨大な量のデータを処理するために、80のGPU(グラフィック処理装置)インスタンスにまたがる「分散トレーニング」を使用する必要があると説明した。

Alexa の音声認識モデルのこの大規模な分散トレーニングにより、Amazon は精度と品質を継続的に更新できます。

ストロム氏はまた、アマゾンが音声データをいつ、どのように収集するのかという懸念にも時間を割き、同社が関心を持っているのはサービスの運営に必要な音声データのみであり、誰かの会話の内容には興味がないことを強調した。

この問題は最近、アーカンソー州の殺人事件で注目を集めました。ベントンビル警察は、殺人容疑者が所有していたEchoデバイスの記録を求める令状を発行しました。この事件は、デジタルデバイスに音声データが保存されている場合、憲法修正第1条の権利をどのように保護すべきかという議論を巻き起こしました。Alexaの技術とプライバシーに関する一般的な質問に対し、ストロム氏は、Alexaによる音声データの取り扱いについて、報道で情報を得ただけでは必ずしも完全に理解されていないことを示唆しました。

「これらの記事で人々が必ずしも理解していないのは、Alexaが常にウェイクワードを聞き取っているということです。ウェイクワードだけを聞き取っているのです」とストロム氏は説明した。「青いリングが回り始めた時、Alexaはウェイクワードを聞き取って録音を開始します。録音されるのは、ウェイクワードの後に​​あなたが言ったことだけです。」

AlexaはAmazonのEchoやFire TVデバイスから、ますます多くのサードパーティ製品へと拡大しています。(Amazon Photo)

Alexa搭載デバイスの種類も拡大しており、この技術はスマートフォン、自動車、冷蔵庫などにも搭載されています。さらにストロム氏は、サードパーティ製の「スキル」(Alexa対応の音声起動アプリ)の数が急速に増加しており、対応が追いつかないほどだと指摘しました。Amazonは最近、Alexaのスキルが1万種類を超えたと発表しました。

「スキルは非常にエキサイティングですが、数が多く、私たち自身で構築していないため、私たちにとっては大きな課題でもあります」と彼は述べ、スキル開発者との強力なコミュニケーションを維持する必要性について率直に語りました。

最後に、ストロム氏はAlexaをもう少し賢くするために何が必要かについて示唆しました。つまり、Alexaが相手の言葉を単に理解するだけでなく、その意味を理解できるようにすることです。そのためには、Alexaは感情やイントネーションといった要素に取り組む必要があるでしょう。

「Alexaは今のところ、あなたの発話の感情を捉えることはできませんが、あなたが発した言葉の意味を捉えることで間接的に何かを行うことができます。それは感情的なものかもしれません」と彼は述べた。「例えば、あなたの罵り言葉も認識できるようになります。私たちは100人以上の科学者をAlexaの音声全般の研究に携わらせています。」

ストロム氏は、感情認識に関して同社がまだ発表するものはないが、今後も関心のある分野であり続けるだろうと述べた。

AmazonはAlexa対応デバイスの売上が好調です。RBCキャピタル・マーケッツのアナリストは最近、Alexaデバイスの売上高が2020年までに50億ドルに達する可能性があると予測しました(さらに、音声アシスタントを介したショッピングによる年間売上高が50億ドルに達すると予測されています)。しかし、Amazonだけが市場を独占しているわけではありません。MicrosoftのCortana(Windows 10に搭載され、iOSとAndroidデバイスで利用可能)、GoogleのGoogle Home、そしてGoogle Assistant(Androidスマートフォンにプリインストール)も、依然として強力な競合相手です。