
言語のブレークスルー:マイクロソフトのシステムが英語を中国語に変換、スピーカーの声で
テイラー・ソパー著
上のビデオで起こっていることは、国や文化間の言語の壁を打破するのに役立つ可能性のある、音声認識技術の潜在的な進歩です。
マイクロソフトの最高研究責任者リック・ラシッド氏が、中国の学生たちに講演を行っている。彼が英語で一文を発すると、数秒後にコンピューターが彼の言葉を中国語で、しかも彼自身の声で読み上げる。

ラシッド氏がこのブログ記事と講演で説明しているように、翻訳はまだ「完璧には程遠い」。しかし、マイクロソフトと大学の研究者たちは、1970年代後半以来「最も劇的な精度の向上」を達成できたと彼は言う。
「従来の方法と比較して、音声認識における単語誤り率を30%以上削減することができました」とラシッド氏は記している。「つまり、4~5語のうち1語が間違っていたのではなく、今では7~8語のうち1語が誤りです。」
ラシッド氏は、マイクロソフトの研究者がトロント大学と提携し、人間の脳の行動を模倣したディープニューラルネットワークと呼ばれる技術を用いて音声認識精度を向上させたと説明する。動画では、ラシッド氏の言葉が隣のスクリーンで中国語に素早く変換されている。
しかし、中国人学生の聴衆から大きな歓声を浴びたのは、コンピューターがラシッドの声で中国語の翻訳を読み上げる能力だった。これは、マイクロソフトの研究者が構築したシステムに基づいており、中国語ネイティブスピーカーの音声と、ラシッドの過去のスピーチ1時間分の録音を考慮に入れていた。
「数年後には、人々の間にある言語の壁を壊せるようになることを願っています」と、コンピューターが中国語で彼の言葉を話し続けている間、ラシッド氏はスピーチの中で述べた。「個人的には、これがより良い世界につながると信じています。」
講演の最後に彼は「ありがとう」と言い、システムがその言葉を読み上げると、ビデオが終わると同時に聴衆が歓声を上げ始めるのが聞こえます。
GoogleはGoogle翻訳モバイルアプリで同様の取り組みを進めています。ただし、話者の声で読み上げるわけではありません。
この種のテクノロジーの用途は無限です。例えば、任天堂の日本人幹部がレドモンド本社で会議をしていて、会議中に何か発言する必要がある場合、翻訳機を活用できます。あるいは、フランスで食事を注文しようとして、ウェイターが英語を理解できない場合、翻訳機を活用できます。
昨夏、シアトル・マリナーズを取材したのですが、イチロー選手はほとんどインタビューを受けませんでした。インタビューを受けたとしても、シアトルに11年住み、完璧な英語を話せるにもかかわらず、必ず通訳を同席させて日本語で話すことを主張していました。この新しいテクノロジーがあれば、イチロー選手は地元メディアとのインタビューを容易にこなし、通訳を解雇する可能性もあったでしょう。