
アマゾンのAlexa音声アシスタントはパンデミック中にどのようにトーンを変えているのか

アレクサ、コロナウイルス検査は必要ですか?
これは、6ヶ月前にはAmazonの音声アシスタントのレパートリーにはほぼなかった質問だ。しかし、新型コロナウイルスの流行に伴う様々な状況がAlexaの働き方を変えていると、AmazonのAlexa Speech担当バイスプレジデント、マノジ・シンドワニ氏は述べた。
「確かに変化が見られます」とシンドワニ氏は今週、GeekWireに語った。「多くの人がCOVID-19について尋ねています。『仕事に行くのにどれくらい時間がかかるのか』とは尋ねていないのです」
在宅勤務が増えたことで、利用パターンにも変化が見られます。通常は仕事前と仕事後のピークが、日中の残りの時間帯にまで広がっています。「ある意味、週末のパターンに近いと言えるでしょう」とシンドワニ氏は言います。
ここ数か月間に Alexa に追加された機能のいくつかは、現在、ユーザーの対応に役立っています。
シンドワニ氏は、ディープラーニングネットワークを活用し、ニュースやWikipediaの記事、その他TTS(テキスト読み上げ)と呼ばれる長い音声合成による音声をAlexaが読み上げる際に、より自然な音声を実現する工夫を凝らした点を指摘した。これは、ユーザーが新型コロナウイルス危機の動向を把握したり、Alexaに子供に物語を読んでもらったりする際に役立つ。
「長文コンテンツについて、そしてそのコンテンツをより自然な音声にするにはどうすればいいかを考えるとき、私たちにとって重要なのは話し方です」とシンドワニ氏は述べた。「どのコンテンツが最も関連性の高いものになるかに取り組んでいる別々のチームがあります。私のチームはそこに重点を置いていませんが…TTSにおいて、私たちが主に注力してきたのは、長文コンテンツの自然さの向上です。」
Alexaの耳と声
シンドワニ氏は、彼のチームが注力しているのは「Alexaの耳とAlexaの声」、つまり、Alexa対応デバイスがユーザーの言おうとしていることをいかに理解するか、そしてそれらのデバイスがAlexaのクラウドベースのコンテンツをいかに明瞭かつ自然に届けるかということだと語る。
こうした問題は先週開催された音響、音声、信号処理に関する国際会議の焦点であったが、当初はバルセロナで対面式の会議として計画されていたが、パンデミックの影響でバーチャル会議に変更された。
「私たちが非常に誇りに思っている研究分野の一つは、データ効率の高い学習です」とシンドワニ氏は述べた。「データ効率の高い学習とは、いかに大量のデータを生み出すかという点に重点が置かれており、初日から大量のデータを用意する必要はないのです。」
例えば、Alexaがウェイクワードを認識してユーザーの質問を聞き始める仕組みを考えてみましょう。理想的な状況であれば、静かな部屋でデバイスの近くから「アレクサ」(または「コンピューター」「エコー」)と呼びかけても、非常に明瞭に認識されます。しかし、Echoに向かって叫んだことがある人なら誰でも知っているように、状況は常に理想的とは限りません。
シンドワニ氏のチームは、データを拡張して背景ノイズを導入したり、遠くから聞こえる声をシミュレートしたりすることで、より困難な状況でもウェイクワードを認識できるように Alexa の音声認識モデルをトレーニングしてきた。
もう1つのトリックは、半教師あり学習と呼ばれる技術を活用したもので、Alexaが実際のウェイクワードと似た発音の単語を区別するのに役立ちます(例えば、「Lexus」と「Alexa」など)。
シンドワニ氏によると、データ効率の高い学習のおかげで、通常であれば200~500時間のトレーニングが必要となるような結果を、わずか10時間分のトレーニングデータで得ることができるという。
Alexaは音声認識に加え、窓ガラスが割れる音、火災報知器の鳴き声、人間の活動に関連する音など、様々な音も認識できます。これらはすべてAlexa Guardに組み込まれており、外出中に何か不審な音が聞こえた場合に、あなた(または当局)に通知するようにプログラムできます。
ユーザーとAlexaのインタラクションの裏側は、音声アシスタントの話し方にあります。シンドワニ氏のチームは、サミュエル・L・ジャクソンをはじめとする有名人の声から、静かなささやき声、オーストラリア訛りや感情を込めた声まで、様々な話し方を揃えています。
会話の文脈
Alexaにとって最大の課題は、おそらく、ユーザーが明示的に言わなかったとしても、会話の文脈から推測できる内容を理解することでしょう。例えば、「Alexa、今日のボストンの天気はどうですか?」と尋ねたとします。Alexaがその質問に答えた後、ユーザーが「明日はどうですか?」と尋ねたとします。
音声アシスタントは、ユーザーがデバイスに話しかけ、ボストンの天気について尋ねていることを認識できるだけの知性を備えていなければなりません。「この情報を活用して、ユーザーがデバイスに話しかけていることをより正確に判断するにはどうしたらいいか、私たちは考え始めました」とシンドワニ氏は言います。「それが私たちが発表した論文の一つです。」
Alexaのスキルが複雑化するにつれて、会話の流れをスムーズにし、文脈を把握することがますます重要になります。例えば、先月、メイヨー・クリニックはCOVID-19に関する情報を提供し、ユーザーに一連の「はい」か「いいえ」の質問に答えてもらうことで、コロナウイルス検査が必要かどうかを判断するスキルをリリースしました。
アンケートの最後に、Alexaはあなたの症状の緊急度と、医療機関に連絡する必要があるかどうかを教えてくれます。このスキルはAmazonで現在、5つ星中4.9の評価を得ています。
Alexaのスキルと同様に、音声サービスの市場はますます複雑になっています。Voicebot Researchによると、スマートスピーカー市場におけるAmazonのシェアは2019年の61%から今年1月時点で53%に低下し、2位のGoogleのシェアは30.9%に上昇しています。
しかし、シンドワニ氏は競争に執着していないと述べた。むしろ、「顧客にどのような魅力的で魔法のような体験を提供できるか、そしてそれを実現するためにどのようなイノベーションが必要か」を考えている。
「話し方について考えてみてください。話し方に取り組んでいる人は他に誰もいませんでした」とシンドワニ氏は語った。「私たちは自分たちの話し方は非常に自然だと思っていましたが、長編コンテンツ、つまり顧客にニュースを伝える際には、ニュース番組のように話す方がより自然に聞こえるはずです。なぜなら、人々はニュースをそのように消費しているからです。ですから、私たちはそうしたスタイルで仕事をする傾向があります。」