
Libratus AIプログラムがノーリミットテキサスホールデムで熟練ポーカープレイヤーに勝利した方法
アラン・ボイル著

いつカードを保持し、いつカードを降ろすかを知っておく必要があります。ポーカーのゲームで人間の優位性に賭けるとなると、カードを降ろすタイミングかもしれません。
カーネギーメロン大学の研究者らは、今週科学誌「サイエンス」に発表した研究で、ノーリミットテキサスホールデムでプロのポーカープレイヤー4人に勝つためにLibratus AIプログラムをいかに設計したかを説明した。
これは、チェッカーやチェスから始まり、囲碁として知られる古代のボードゲームへと移り、人間と機械のゲーム実験シリーズで倒れるもう 1 つのドミノです。
ポーカーは、プレイヤーが他のプレイヤーの手札を正確に把握していないという点で異なります。そのため、ブラフなど、一見人間特有の行動が入り込む余地が残されています。かつては、このような不完全情報ゲームを機械学習で解読するのは難しいと考えられていました。
カーネギーメロン大学のコンピュータサイエンス教授 Tuomas Sandholm 氏と博士課程の学生 Noam Brown 氏が、それがどのように実現できるかを示しました。
Libratusは、1月にピッツバーグのリバーズカジノで行われた4人のポーカープロによる20日間の大会で優勝を果たしました。このソフトウェアプログラムは、2人対戦のヘッズアップ・ノーリミット・テキサスホールデムで各プレイヤーを個別に打ち負かし、12万ハンドを終えた時点で180万ドル以上のチップを獲得しました。
サンドホルム氏とブラウン氏は、Libratus がゲームごとに 14.7 ビッグ ブラインドで人間に勝利したと報告しました。これはポーカーの基準からすると圧倒的な勝利です。
「Libratusの技術は、専門家の専門知識や人間のデータを使用しておらず、ポーカーに特化したものではありません」と研究者たちはScience誌の論文で述べている。「したがって、多くの不完全情報ゲームに適用可能です。」
これはゲームだけではありません。不完全な情報に基づいて意思決定を行うことは、ビジネス交渉、金融、サイバーセキュリティ、軍事計画など、現実世界の戦略的相互作用の鍵となります。
では、研究者たちはどのようにそれを実現したのでしょうか?彼らは3つのアプローチを採用しました。まず、典型的なポーカーゲームにおける10,121の意思決定ポイントを簡素化するアルゴリズムを開発しました。このアルゴリズムは、ゲームプレイの抽象的な青写真を生成します。これは、賭けの序盤のラウンドでは詳細に記述され、後半のラウンドではより緩いものになります。
「直感的に言えば、キングハイフラッシュとクイーンハイフラッシュの間にはほとんど違いはありません」とブラウン氏はニュースリリースで説明した。「これらのハンドを同一のものとして扱うことで、ゲームの複雑さが軽減され、計算も容易になります。」
ゲームがクライマックスへと進むと、2つ目のソフトウェアモジュールがゲームの状況に基づいてブループリントを微調整し、今後の戦略をリアルタイムで算出します。対戦相手が戦略で想定されていない動きをした場合、その予想外の動きを考慮に入れて戦略が修正されます。このプロセスは、ネストされたサブゲームソルビングと呼ばれます。
3つ目のモジュールは「自己改善モジュール」と呼ばれ、Libratusの対戦相手がどれだけの金額を賭けているかを分析し、その戦略における潜在的なギャップを検出します。ソフトウェアはその情報を用いて、意思決定ツリーに新たな枝を追加し、ギャップを埋めます。
このトリプルプレイ戦略は、ベイビー・タータニアン8と呼ばれる別のポーカーAIを打ち負かし、プロのテキサスホールデムプレイヤーであるジェイソン・レス、ドン・キム、ダニエル・マッコーリー、ジミー・チョウとの20日間の試合で勝利を収めました。
「一番驚いたのは、彼らの適応力、毎日学び、成長していく能力です」と、周氏はカーネギーメロン大学の試合に関するビデオで語った。「弱点を見つけようとするのは、私たちにとって大変な負担でした。」
レス氏は「Libratus の手からできる限りのチップを奪い取らなければならない」と述べたが、同プログラムは大きな賭けを恐れていないとも付け加えた。
「Libratusのような、250%、500%といった賭け金で、中間で2,000ドルもオールインするようなプレイは滅多に見られません。Libratusは19,000ドルもオールインしているんです」とレス氏は語った。
カーネギーメロン大学の実験は、一部の人にとっては「フューチュラマ」のエピソードのように聞こえるかもしれない。「AIが引き起こす核戦争は必要ありません。機械は高額ポーカーゲームで私たちのお金を奪えばいいのです」と、カリフォルニアに拠点を置くアクティアン社のエンジニアリングディレクター、アレックス・ハンショー氏はツイートで冗談を飛ばした。
しかしサンドホルム氏は、その影響は極めて深刻だと述べた。
「不完全な情報のもとでの戦略的思考において、最高のAIが最高の人間の質を上回ったことを証明できれば、それは非常に大きな意味を持つだろう」と彼は語った。
Libratusの技術は、サンドホルム氏が設立したStrategic Machine Inc.に独占的にライセンス供与されています。同社は、戦略的推論技術を様々なアプリケーションに応用することを目指しています。この研究は、国立科学財団と陸軍研究局の支援を受けています。