Watch

マイクロソフトのAIグループがカスタマイズ可能な音声テキスト変換技術を発表、開発者向けの「認知サービス」を急速に拡大

マイクロソフトのAIグループがカスタマイズ可能な音声テキスト変換技術を発表、開発者向けの「認知サービス」を急速に拡大

トッド・ビショップ

Human Interact は、仮想現実ゲーム「Starship Commander」で、音声テキスト変換技術として Microsoft の Custom Speech Service をテストしています。(Human Interact の写真)

マイクロソフトの人工知能・研究グループは、レドモンドの同社内に昨年設立された新しい主要なエンジニアリング・研究部門であり、開発者がマイクロソフトの音声テキスト変換エンジンをカスタマイズして独自のアプリやオンラインサービスで使用できる新しいテクノロジを発表する。

新しいカスタム音声サービスは、本日パブリックプレビューとしてリリースされる予定です。マイクロソフトによると、開発者はHuman InteractのVRゲーム「Starship Commander」に登場するエイリアンの名前など、独自の語彙をアップロードすることで、音声コマンドやユーザーの発話を認識するための高度な言語モデルを作成できるとのことです。

これは、マイクロソフトの人工知能・リサーチグループが提供する一連の「コグニティブサービス」の最新版です。このグループは、マイクロソフトリサーチの最高責任者であるハリー・シャム氏が率いる5,000人の人員を擁する部門です。同社によると、コグニティブサービスは過去2年間で4つから25に拡大しており、そのうち19はプレビュー段階、6つは一般提供段階となっています。

マイクロソフトリサーチの責任者であるハリー・シャム氏が AI およびリサーチ グループを率いています。

同社は、Content ModeratorとBing Speech APIという2つのコグニティブサービスをさらにプレビュー版から一般提供開始すると発表しました。Content Moderatorは、光学文字認識や物体認識などの技術を用いて画像や動画を分析し、企業が不要なコンテンツをフィルタリングするのを支援します。Bing Speech APIは、音声をテキストに変換し、言語の意図を解釈して、テキストを音声に変換します。

マイクロソフトは、人工知能(AI)の進歩を加速させるためにこのグループを設立し、より多くの技術を研究室から自社製品やサードパーティ開発者向けサービスに展開することを目指しています。AI・リサーチグループには、音声アシスタント「Cortana」や検索エンジン「Bing」も含まれています。

同社は、急成長を遂げている人工知能(AI)分野で、Amazon、Googleなどのライバル企業と競争しています。AIと機械学習は、同社のクラウドプラットフォームにおいてもますます不可欠な要素になりつつあります。

Microsoftの新しいCustom Speech Serviceには、背景ノイズを除去して音声認識を向上させる音響モデルも含まれています。Microsoftは、環境ノイズによって音声認識が非常に困難になる空港のキオスクでCustom Speech Serviceを使用した例を挙げました。

「言語モデルとこの音響モデルを単一のAPIに統合し、ユーザーの語彙に合わせてカスタマイズできるのは、市場で真にユニークなサービスです」と、グループプログラムマネージャーのアーヴィング・クォン氏はインタビューで述べた。プライベートプレビューからパブリックプレビューに移行することで、このサービスは数万もの新規顧客を獲得できるようになるだろう。