Watch

マイクロソフトは、人間をはるかに超える5.1%のエラー率を達成し、音声認識の新記録を樹立したと発表した。

マイクロソフトは、人間をはるかに超える5.1%のエラー率を達成し、音声認識の新記録を樹立したと発表した。

トッド・ビショップ

マイクロソフトのAIおよび研究担当テクニカルフェローであるXuedong Huang氏が、マイクロソフトの音声言語グループを率いています。(Microsoft Photo)

マイクロソフトは、同社の音声認識技術が業界の新たなマイルストーンを達成し、エラー率を 5.1 パーセントまで低減し、広く認知されている精度テストで複数の人間の筆記者によるエラー率と同等になったと発表した。

同社の人工知能・研究グループが今晩発表した新たな結果は、マイクロソフトが昨年発表したこれまでの最低値 5.9% と、IBM が今年初めに発表したエラー率 5.5% を上回った。

マイクロソフトCEOのサティア・ナデラ氏は、人工知能を社内の最重要課題に据えた。(GeekWireファイル写真)

Microsoft Research グループの音声認識研究は、Cortana 仮想アシスタント、Presentation Translator、Microsoft Cognitive Services などの製品で使用される基盤テクノロジを提供します。

マイクロソフトのテクニカルフェローであるXuedong Huang氏は、この成果を説明する投稿の中で、最新のテストにおいてマイクロソフトは「ニューラルネットベースの音響および言語モデルへの一連の改良」によりエラー率を削減したと述べている。

これは、マイクロソフトが人工知能の最先端技術を進化させ、その新しいアプローチを市場に投入するという、より広範な取り組みの一環です。サティア・ナデラCEOの下、マイクロソフトは昨年、Office、Windows、クラウドの各グループに次ぐ、社内第4のエンジニアリング部門として、5,000人規模の人工知能&リサーチグループを新たに設立しました。

マイクロソフトは、人工知能(AI)とクラウド分野で、Amazon、Apple、IBM、Googleといった大手テクノロジー企業と競合しています。レドモンドに本社を置く同社の新たなビジョンステートメントでは、人工知能への言及が明確にされており、「人工知能を組み込んだインテリジェントクラウドとインテリジェントエッジのための、クラス最高のプラットフォームと生産性向上サービスを構築する」という戦略を掲げています。

この最新のマイルストーンに到達するために彼らが行ったことを、Huang 氏は次のように説明しています。

音響モデリングの精度向上のため、CNN-BLSTM(双方向長短期記憶を組み合わせた畳み込みニューラルネットワーク)モデルを導入しました。さらに、複数の音響モデルからの予測を組み合わせるアプローチは、フレーム/セノンレベルと単語レベルの両方で実行できるようになりました。

さらに、ダイアログ セッションの履歴全体を使用して次に何が来るかを予測することで認識器の言語モデルを強化し、モデルが会話のトピックとローカル コンテキストに効果的に適応できるようにしました。

私たちのチームは、モデルアーキテクチャの探索とハイパーパラメータの最適化において、最もスケーラブルなディープラーニングソフトウェアであるMicrosoft Cognitive Toolkit 2.1 (CNTK) を使用することで大きな恩恵を受けています。さらに、Microsoft のクラウドコンピューティングインフラストラクチャ、特に Azure GPU への投資は、モデルのトレーニングと新しいアイデアのテストの効率と速度の向上に役立ちました。

Microsoft の研究者は、この技術レポートで、改良された音声認識システムについてさらに詳しく説明しています。