Airpods

GoogleのディープマインドAI部門が、自己学習するAlphaGoの新バージョンをリリース

GoogleのディープマインドAI部門が、自己学習するAlphaGoの新バージョンをリリース

トム・クレイジット

Googleの人工知能部門Deepmindは、囲碁と呼ばれる古代のボードゲームをプレイするシステムの開発に取り組んでいる。(ウィキメディア・コモンズ写真)

グーグル傘下の人工知能研究機関ディープマインドは水曜日、次世代のアルファ碁システムの研究から驚くべき成果を発表した。機械はますます賢くなっているのだ。

ディープマインドは水曜日のブログ投稿で、過去数年間の大会で世界最強の囲碁プレイヤーを打ち負かしてきたアルファ碁システムの新バージョン、アルファ碁ゼロは、ゲームの基本ルール以外の入力なしで、わずか数日で古代のボードゲームとその先祖のゲームの遊び方を自ら学習することができたと述べた。

AlphaGo の以前のバージョンは、囲碁の達人と対戦するために構築され、囲碁のゲームプレイを何時間もトレーニングする必要がありましたが、AlphaGo Zero は強化学習と呼ばれる技術を使用して、自分でプレイする方法を学習することができました。

強化学習は、一連の行動から最適な報酬結果を導き出すようシステムを訓練するものであり、教師あり学習とは異なります。教師あり学習では、システムに望ましい結果を教え、その結果につながる要因を認識させるよう繰り返し訓練します。DeepMindは、囲碁を自分自身と対戦させるニューラルネットワークを構築し、ゲームの初期段階ではできるだけ多くの石を取ることで満足感を得られるものの、ゲームが進むにつれて大きな問題につながる可能性があるゲームにおいて、勝利戦略を策定する方法を学習しました。

囲碁の世界チャンピオン、イ・セドルを破った2016年版に勝利するのにわずか3日、そして今年初めに柯潔を破ったバージョンに追いつくのに21日かかった。ディープマインドによると、AlphaGo Zeroは40日後に100連勝を達成した。

数十年後には、この成果とこれから到来するシンギュラリティとの直接的な関連性は見出せないかもしれないが、Googleの人工知能への野望にとっては重要なブレークスルーとなる。AIは少数の巨大テクノロジー企業によって独占されている。なぜなら、複雑なニューラルネットワークを構築したとしても、それらのシステムに学習方法を訓練するには膨大なデータが必要だからです。

しかし、もし企業が解決しようとしている問題について迅速に学習できれば、顧客データの収集にそれほど時間をかけずにAI技術をクラウドサービスに組み込むことがはるかに容易になるだろう。そして、これは市場リーダーであるAmazon Web ServicesやMicrosoftにかなりの差をつけられているGoogleのクラウド事業にとって大きな恩恵となる可能性がある。

AlphaGo の最新の進歩は、ネイチャー誌に掲載された「人間の知識なしで囲碁をマスターする」と題された論文とネイチャー誌の解説の主題となっている。