Vision

アマゾンは過去の取引の助けを借りて、スマートフォンの発売が近づくにつれて声を熱くしている

アマゾンは過去の取引の助けを借りて、スマートフォンの発売が近づくにつれて声を熱くしている

ファイアリモコン

アマゾンは音声認識ソフトウェアを搭載したハードウェア製品を2つ立て続けに発表しており、シアトルの小売業者は今後数か月以内にスマートフォンの発表に向けて準備を進めているため、さらなる発表が期待できる。

まず、リモコンから音声検索でテレビ番組や映画を探せるKindle Fire TVが登場しました。次に、あまり知られていないAmazon Dashが登場しました。Amazonフレッシュの顧客は、バーコードをスキャンするか、デバイスのマイクに向かって話しかけるだけで、買い物リストに商品を追加できるようになりました。

スライド1-画像alt2._V340762974_音声認識はスマートフォンの重要な要素であり、この技術は運転中のパーソナルアシスタントや安全機能として機能します。そのため、Amazon にとって今回の 2 つの発表は明らかに始まりに過ぎません。Amazon は、数か月以内にスマートフォンを最終的に発売すれば、Apple の Siri や Microsoft の Cortana に対抗する製品を発表する可能性があります。

同社の音声認識技術で人々を最も驚かせたのは、ビデオストリーミング用セットトップボックスでの優れた動作でした。例えば、GeekWireのレビューで、BuddyTVのCEOであるアンディ・リュー氏は次のように述べています。「私がテストしたところ、音声検索は非常にうまく機能しました。周囲の雑音があってもです。」

では、Amazon はどのようにして予想外の発想でこのようなスムーズな製品を展開できたのでしょうか?

この疑問に答えるために少し調べてみたところ、Amazonは過去3年間で、かなり強力な音声認識システムを手に入れるために、いくつかの企業買収を行ってきたことがわかりました。ある情報筋によると、Amazonは現在、この分野でAppleよりも多くの技術を保有しており、Oculusを買収したFacebookも間違いなくその技術を必要としています。

実際、Amazon のノウハウは、最近 Cortana をリリースして同様に誇示している Microsoft や Google と同等である可能性があります。

Amazon のテクノロジーの 3 つの主要コンポーネントは次のとおりです。

•  Yap:   Amazon は 2011 年後半に Siri のような競合企業を買収しました。ノースカロライナ州シャーロットに本社を置くこの企業の買収については Amazon は認めていませんが、確認できるだけの証拠は残されています。

•   IVONA:   Amazonは、コンピューター音声が書籍の文章を自動的に読み上げる「テキスト読み上げ」機能を含むAmazon Kindle機能の技術を提供していたポーランド企業を買収しました。2013年のこの買収は、Amazonがスマートフォン製品ライン向けにこの技術を買収するのではないかとの憶測を呼びました。

Evi:  Amazon.comは、単語の意味を理解し、検索者の意図を理解することができる英国ベースの音声認識アプリEviを約2,600万ドルで買収した。

これら 3 つを組み合わせることで、人の話し言葉の認識から、その人が言ったことの翻訳、音声またはテキストの表示による回答の提供まで、非常に包括的なサービスが提供されます。

ベゾスアマゾンポッド
アマゾンCEOジェフ・ベゾス

念のため、Amazonは音声認識の独立系リーダーであるNuance Communicationsとも契約を締結しました(同社はAppleとも契約を結んでいます)。この契約はNuanceがSECに提出した書類で開示されているため、Amazonがこの技術をどの程度活用しているのか、あるいはそもそも活用しているのかさえ不明です。

アマゾンの研究の一部は、音声認識の発祥地とも言えるボストン地域で行われています。ボストン・グローブ紙の報道によると、同地域にはニュアンス、マイクロソフト、アップルといった企業もオフィスを構えています。

アマゾンは2011年にステルスオフィスの構築を開始し、ビル・バートンを雇用しました。バートン氏は様々なモダリティの活用に関する特許を少なくとも2件保有しています。また、このオフィスには、かつてYapとNuanceで働いていたジェフ・アダムス氏もいます。LinkedInには現在、アダムス氏がA2Z.comのシニアマネージャーとして掲載されており、音声言語技術に関するトップクラスの研究グループの編成と管理に携わっています。

だからといって、Amazon にはまだやるべき仕事がないというわけではない。

Kindle Fire TVの最初の売り込みでは、音声検索はAmazonのインスタントビデオコレクションとVevoからのみ検索結果が表示されると明記されていませんでした。つまり、Netflix、Showtimeなどのコンテンツを音声で検索することはできないとBusiness Insiderは報じています。

記事では、Fire TVで音声検索を行うたびに、音声録音が保存されることも指摘されています。Amazonのウェブサイトによると、これは検索結果の精度向上のためだそうです(もし気になるようでしたら、録音を削除することも可能です)。

最後に、この技術は主流として十分に優れているように見えますが、AmazonはKindle Fire TV向けアプリケーションに統合するための音声認識機能をサードパーティ開発者に提供していません。将来的には提供を計画しているかもしれませんが、現時点では開発者ポータルに音声用のAPIはなく、検索してもドキュメントは見つかりません。

Amazon がこの分野に数百万ドルを投資していることは明らかですが、これはまだ始まりに過ぎないと言えるでしょう。