Ipad

カーネギーメロン大学のポーカーチャンピオンボットと1対1で対戦したが、負けなかった

カーネギーメロン大学のポーカーチャンピオンボットと1対1で対戦したが、負けなかった
カーネギーメロン大学のコンピュータサイエンス教授、トゥオマス・サンドホルム氏とポーカーについて語りながら、Baby Tartanian8というポーカーボットと対戦。(GeekWire Photo / Taylor Soper)

ピッツバーグ — この記事を準備するにあたり、カーネギーメロン大学出身の、私が今まで出会った中で最も優秀な人たちが作ったポーカーボット、Baby Tartanian8に完敗した経緯を詳しく説明するつもりでいました。ところが、面白いことが起こりました。なんと、私が勝ったのです!

この勝利には多くの落とし穴があります。20ハンドというごくわずかなサンプルプレイ、50と100のブラインドのヘッズアップ形式で最終的に獲得したチップはわずか103枚、そして最後のハンドで臆病にもフォールドしてしまったことなどです。しかし、それでも勝利は認められます。今日の不安定な市場で安全な投資を探している人にとって、今年のワールドシリーズ・オブ・ポーカー・メインイベントへのエントリーに資金を提供するのが最善策でしょう。きっと満足していただけるはずです。

皆さんも私もそう思っていましたが、なぜポーカーボットなのか疑問に思っていることでしょう。ポーカーは、CMUの研究者が不完全情報ゲームと呼ぶものです。つまり、プレイヤーが複数存在し、変数が不明瞭なゲームです。Baby Tartanian8はCMUのサーバーで動作し、ゲーム理論とナッシュ均衡(敵対的な状況における最適な意思決定に関する概念)を利用しています。

研究者たちはボットにゲームの遊び方を教えたわけではない。ボットはルールを読み、その後、スーパーコンピューター上で数週間かけてアルゴリズムを実行し、戦略を練る。この戦略はサーバーに保存され、ゲーム中に参照される。

「このゲームはゲームを解こうとするので、ゲームのルールのモデルを取ります。つまり、この時点では私はこれらのことができ、相手はこれらのことができ、そして私はこれらのことができます。そして、両方のプレイヤーのさまざまな動きすべてに確率をどのように割り当てるかを計算します。しかし、これは非常に難しいことです」と、カーネギーメロン大学コンピュータサイエンス学部の教授で、博士課程の学生ノアム・ブラウンとともにベイビー・タータニアン8を共同制作したトゥオマス・サンドホルムは説明した。

ゲームの世界へ飛び込むのは、とても魅力的な体験でした。サンドホルムはちょうど、語学学習スタートアップ企業Duolingoの本社で行われたパネルディスカッションの講演を終えたばかりでした。私たちはDuolingoのカフェテリアに座り、ゲームのニュアンスについて話し合っていました。250人の技術者やコミュニティリーダーたちが交流を深め、ピロギーをつまみながら、ピッツバーグのイーストエンド・ブルーイング社製のビッグホップビールを飲み干していました。

私は堅実なポーカープレイヤーだと自負しています。不定期に自宅でプレイするゲームではしょっちゅう勝利し、ラスベガスのテーブルでも大抵は勝ち越しています。2000年代半ば、テキサスホールデム全盛期の一時期は、オンラインポーカーで稼いだ賞金で学費を払うことさえできました。しかし、この課題の準備をする中で、タータニアンが何ハンドプレイしても私を完敗させるだろうと思い込んでいました。ミーティングの前に、この投稿の冒頭に「カーネギーメロン大学のチャンピオンポーカーボットにボコボコにされた…」という仮の見出しを書いておきました。

もしあと数回プレイしていたら、ボットは間違いなく私よりも優れたプレーヤーだったので、私はすぐに負けていたでしょう。

最後のカードで2枚目の8が出て、すぐに圧倒的なリードを得ることができました。(GeekWire Photo / Taylor Soper)

さて、ゲームを始めましょう。これから少し変わったポーカー戦略をお話ししますので、今一番人気のテキサスホールデムの基本をまだ知らない方は、こちらの入門編をご覧ください。

好調なスタートを切り、最初の5ハンドのうち4ハンドを勝ち、相手に4,000チップのアドバンテージを築き、自信を取り戻しました。5枚の共通カードの最後のカード、いわゆるリバーで2回スリーカードを完成させ、多くのチップを獲得しました。しかし、タータニアンのカードを見て戦略を理解したかっただけだったこともあり、最終的にはそのほとんどを手放しました。また、単に相手に出し抜かれただけだったこともあります。

セッションを通して、サンドホルム氏がこのゲームを非常に熟知していることは明らかでした。彼がこれらのプログラムの開発に多くの時間を費やしてきたことを考えれば、当然のことです。何度か私の動きを推測してくれたこともありましたが、そのたびに彼の言う通りに動いてくれました。例えば、ボットのハンドを正確に予測し、相手から最大限のバリューを引き出すために少額のベットをするように促してくれた場面もありました。トゥオマスさん、アドバイスをありがとう!

Tartanianは用心深く、しばしばイライラさせられる相手でした。テキサスホールデムでは、両プレイヤーがカードを公開したまま最後までプレイできるハンドは稀です。そのため、20ハンドプレイしただけでは、意味のある傾向を把握するのは困難でした。ボットはベットサイズを終始一定に保っていたため、Tartanianが何をしようとしているのか、私には推測するしかありませんでした。また、ボットは一瞬立ち止まって考えるような動きをせず、瞬時に行動したため、少し戸惑いました。

しかし、Baby Tartanian8のプレイスタイルについて、いくつか情報を得ることができました。私が弱みを見せ、ベットしない、あるいはレイズではなく序盤でコールするといった行動に出ると、Baby Tartanian8はしばしばごく小さなベットを繰り出しました。まるでコールするように懇願しているかのようでしたが、ボットは様々な状況で巧みにコールし、私をひどく苛立たせました。何度かトップハンドをスロープレイしたり、逆に過度にアグレッシブに攻めたりと、まさに一流ポーカープレイヤーと対戦する際に遭遇するような戦略の組み合わせでした。

Baby Tartanian8はここでキングのペアをスロープレイし、私の9のペアに勝ち、少額のベットで私を誘い込んだ。(GeekWire Photo / Taylor Soper)

同じスートのエースとキング、つまりペア以外で手に入る最高の2枚のカードでスタートしたハンドで、タータニアンは大幅なレイズで私を翻弄しました。ボード上のカードとは全く繋がっていない素晴らしいスターティングハンドに、多額のチップを投入しなければならないというプレッシャーを感じました。サンドホルムのアドバイスを無視して、私はフォールドしました。

ボットの反応を見るために、普段ならしないような動きをいくつか試しました。長期的に見れば最善とは言えない動きです。7-5のような弱いスタートカードでブラフをかけて、ボットを手札から引き離すことも何度かできました。

ボットのスキルを完全に把握し、完全に打ち負かすには、もっと多くのハンドをプレイする必要がある、とサンドホルム氏は私に言った。

「実際に誰がより優れているかを知るには、何万ものハンドをプレイする必要があります。そのため、20ハンドでは最終的に勝つ確率はおそらく50%です」とサンドホルム氏は語った。

Baby Tartanian8は、CMUで開発された数種類のポーカーボットの1つです。他のポーカーAIプログラムとの対戦で勝利を収めていますが、人間と定期的に対戦しているわけではありません。CMUのトップポーカーボットであるLibratusは、昨年、ここピッツバーグで世界トップクラスのポーカープレイヤーたちに勝利しました。Libratusと他のポーカーボットの大きな違いは、時間の経過とともに成長し、学習する能力です。Libratusはゲームの弱点を認識し、それを修正することで、ゲームが進むにつれてさらに強力なプレイヤーへと成長していきます。

(GeekWire写真/テイラー・ソパー)

サンドホルム氏と彼のチームは15年以上にわたりこの技術に取り組んでおり、サンドホルム氏が設立したStrategic Machine Inc.にライセンス供与しています。同社は、戦略推論技術をゲームにとどまらない幅広い用途に応用することを目指しています。複数のプレイヤーが関与し、一連の未知の変数が存在する状況は、あらゆるアウトレットとして理にかなっています。その範囲は、軍事計画や戦略、小売業における動的な価格変更、映画やストリーミング配信の権利などの賞品をめぐるオークションや入札など、多岐にわたります。

そして、ここは自動運転車の研究の中心地であるピッツバーグなので、自動運転車への応用もあります。

「道路交通法には従わなければなりませんが、それでは多くのことが明確になりません」とサンドホルム氏は述べた。「例えば、どのように合流するのでしょうか? 普通の人のように速度を落として互いを見つめ合う合流でしょうか? それとも、事前に双方の車線間で状況を調整し、全速力で合流できるようにした方が良いのでしょうか?」