Iphone

言語のブレークスルー:マイクロソフトのシステムが英語を中国語に変換、スピーカーの声で

言語のブレークスルー:マイクロソフトのシステムが英語を中国語に変換、スピーカーの声で

テイラー・ソパー

上のビデオで起こっていることは、国や文化間の言語の壁を打破するのに役立つ可能性のある、音声認識技術の潜在的な進歩です。

マイクロソフトの最高研究責任者リック・ラシッド氏が、中国の学生たちに講演を行っている。彼が英語で一文を発すると、数秒後にコンピューターが彼の言葉を中国語で、しかも彼自身ので読み上げる。

Rick Rashid が Microsoft の新しい音声認識テクノロジを紹介します。

ラシッド氏がこのブログ記事と講演で説明しているように、翻訳はまだ「完璧には程遠い」。しかし、マイクロソフトと大学の研究者たちは、1970年代後半以来「最も劇的な精度の向上」を達成できたと彼は言う。

「従来の方法と比較して、音声認識における単語誤り率を30%以上削減することができました」とラシッド氏は記している。「つまり、4~5語のうち1語が間違っていたのではなく、今では7~8語のうち1語が誤りです。」

ラシッド氏は、マイクロソフトの研究者がトロント大学と提携し、人間の脳の行動を模倣したディープニューラルネットワークと呼ばれる技術を用いて音声認識精度を向上させたと説明する。動画では、ラシッド氏の言葉が隣のスクリーンで中国語に素早く変換されている。

しかし、中国人学生の聴衆から大きな歓声を浴びたのは、コンピューターがラシッドの声で中国語の翻訳を読み上げる能力だった。これは、マイクロソフトの研究者が構築したシステムに基づいており、中国語ネイティブスピーカーの音声と、ラシッドの過去のスピーチ1時間分の録音を考慮に入れていた。

「数年後には、人々の間にある言語の壁を壊せるようになることを願っています」と、コンピューターが中国語で彼の言葉を話し続けている間、ラシッド氏はスピーチの中で述べた。「個人的には、これがより良い世界につながると信じています。」

講演の最後に彼は「ありがとう」と言い、システムがその言葉を読み上げると、ビデオが終わると同時に聴衆が歓声を上げ始めるのが聞こえます。

GoogleはGoogle翻訳モバイルアプリで同様の取り組みを進めています。ただし、話者の声で読み上げるわけではありません。

この種のテクノロジーの用途は無限です。例えば、任天堂の日本人幹部がレドモンド本社で会議をしていて、会議中に何か発言する必要がある場合、翻訳機を活用できます。あるいは、フランスで食事を注文しようとして、ウェイターが英語を理解できない場合、翻訳機を活用できます。

昨夏、シアトル・マリナーズを取材したのですが、イチロー選手はほとんどインタビューを受けませんでした。インタビューを受けたとしても、シアトルに11年住み、完璧な英語を話せるにもかかわらず、必ず通訳を同席させて日本語で話すことを主張していました。この新しいテクノロジーがあれば、イチロー選手は地元メディアとのインタビューを容易にこなし、通訳を解雇する可能性もあったでしょう。