
アマゾンは感情を感知する統合音声モデル「Nova Sonic」でリアルタイムAI音声競争に参入

AIがあなたの声から不満や喜びを感知すると何が起こるでしょうか?
アマゾンの新しい音声合成AIモデル「Nova Sonic」は、音声認識と生成を統合し、より自然な音声インタラクションを実現する。これは、グーグルやOpenAIなどと競合し、人間のような知能を開発するというシアトルのテクノロジー大手の幅広い取り組みの一環である。
Amazonによると、Nova Sonicは他の先進技術の中でも、ユーザーの声のトーンを感知し、スタイルや感情に合わせて適応するとのこと。サポートコールで怒っている顧客には、落ち着いた落ち着いた声が返ってくるかもしれないし、興奮している顧客には、より明るい声で返ってくるかもしれない。
「知能は文脈と切り離せないものだと私は考えています」とアマゾンの汎用人工知能担当上級副社長で、同社の最先端のAI技術に取り組む中心チームを率いるロヒット・プラサド氏は語った。
「もしあなたがハワイにワクワクしているなら、アプリもワクワクするでしょう」と彼は例を挙げて説明した。「もしあなたがハワイにワクワクしていないなら、別の目的地を提案するでしょう」
Nova Sonicは、AmazonのBedrockサービスを通じてサードパーティ開発者に提供されます。Amazonはすでに、新たにリリースされたAlexa+音声アシスタントなどの製品において、このモデルのコンポーネントを社内で使用しています。
同社によれば、音声認識、言語処理、テキスト読み上げの個別のモデルを統合する従来の音声システムとは異なり、Nova Sonic はこれら 3 つすべてを単一のアーキテクチャに統合しているという。
Amazon によれば、この統合により、モデルはイントネーション、ペース、意図など会話の完全なコンテキストを保持できるようになり、やり取りがより会話的で応答性の高いものになるという。
また、会話の流れを中断することなく、フライトオプションを表示したりアカウントを確認したりするなど、会話の途中でアクションを実行することもできます。
Amazonは、リアルタイム音声アプリケーション向けに構築された新しいストリーミングAPIを通じてNova Sonicを提供します。現在、いくつかの異なる音声とアクセントを含む英語をサポートしています。Amazonは、より多くの言語への対応に取り組んでいると述べています。

Nova Sonicは、企業がより人間に近いデジタルアシスタントの開発を競う中、成長著しい音声およびマルチモーダルAIモデルの分野に参入しました。OpenAIは最近、独自のリアルタイム音声モデル「GPT-4o」をリリースし、GoogleはGeminiアシスタントに会話型音声機能を追加しました。
Amazon はテストに基づき、Nova Sonic は低遅延と優れた価格設定により、速度とコストの面でこれらの競合製品を上回っていると述べています。
例えば、Amazonによると、Nova Sonicは平均1秒強で応答します。これは、調査会社Artificial Analysisが実施したテストにおいて、OpenAIのGPT-4oとGoogleのGemini Flash 2.0の両方よりも高速です。同社は、リアルタイムの音声インタラクションにおいて、Nova SonicはGPT-4oよりも約80%安価であると述べています。
かつてAlexaの主任科学者だったプラサド氏は現在、AmazonのAGIグループを監督し、Amazon CEOのアンディ・ジャシー氏に報告している。
プラサド氏はインタビューで、長期的な目標はあらゆる種類の入力を処理し、最も自然な方法で応答できる統合モデルを作成し、汎用人工知能の「一般」を実現することだと語った。
「実際、これは人間と機械の力を融合させていると言えるでしょう」とプラサド氏はAGI構想について語った。「だからこそ、これは非常に重要なのです。」
彼はノヴァソニックをその方向への「大きな一歩」と呼んだ。
Nova Sonicをテストしている企業には、顧客サービスコール用のASAP、言語学習ツールに適用しているEducation First、音声を通じてリアルタイムのスポーツ分析を提供するためにNova Sonicを使用しているStats Performなどがある。
Amazonによると、Nova Sonicは企業システムと統合し、価格、在庫状況、スケジュールなどのリアルタイム情報にアクセスできるように設計されているとのことです。また、予約や代替案の提案など、会話の途中でタスクを実行することも可能とのことです。
Nova Sonicは、AmazonのNova AIモデルラインの最新作です。12月のAWS re:InventでJassy氏が発表したこのラインには、テキスト、画像、動画の生成と理解のためのAIが含まれています。Amazonはこれに先立ち、WebベースのAIエージェント構築のためのNova Actのリサーチプレビューを最近リリースしました。