Computer heeft strakste pokerface (NRC)

Bron: 

Chris Ferguson, zesvoudig winnaar van de World Series of Poker, was een van de profs die speelden tegen computer Pluribus.
Chris Ferguson, zesvoudig winnaar van de World Series of Poker, was een van de profs die speelden tegen computer Pluribus. Foto Frazer Harrison/Getty Images

Aan de menselijke superioriteit in poker is een eind gekomen. Pokercomputer Pluribus heeft de beste menselijke spelers verslagen in de meest gespeelde pokervariant: Texas Hold’em voor zes spelers. Het is een nieuwe mijlpaal in de kunstmatige intelligentie. De ontwikkelaars van Pluribus, informaticahoogleraar Tuomas Sandholm en zijn promovendus Noam Brown van Carnegie Mellon University, publiceren hun bevindingen in Science van deze week. De publicatie valt samen met de World Series of Poker in Las Vegas.

„Serieus pokeren gaat net zo min over gokken als bergbeklimmen gaat over het nemen van risico’s”, schreef de Britse dichter en pokerspeler Al Alvarez. Het is de combinatie van toeval en tactiek die pokeren zo lastig maakt, niet alleen voor mensen, maar tot voor kort ook voor de slimste computers.

Toeval en bluffen

Poker onderscheidt zich van bordspelen zoals dammen, schaken en go, waarin de computer de mens al eerder de baas was. Het verschil zit in onvolledige informatie (de spelers zien de kaarten van hun tegenstanders niet), een toevalselement (de kaarten die elke speler krijgt), bluffen (doen alsof je betere kaarten hebt dan in werkelijkheid) en het aantal van zes spelers. Dat alles vergroot de spelcomplexiteit. Het maakt ook dat poker veel meer op het alledaagse menselijke leven lijkt – bijvoorbeeld bij zakelijke of politieke onderhandelingen – dan schaken of go.

Pluribus is de opvolger van pokercomputer Libratus, die in 2017 al beter pokerde dan de beste menselijke profs in de eenvoudigere Texas Hold’em-variant met slechts twee spelers. Ook Libratus werd ontwikkeld onder leiding van Tuomas Sandholm. Omdat pokeren met zes spelers veel ingewikkelder is dan met twee spelers, moet de computer een heel ander soort algoritme gebruiken. Pluribus bekijkt bij elke beurt voor elke speler en voor zichzelf vijf mogelijke vervolgstrategieën.

Pluribus werd getraind door dagenlang te spelen tegen kopieën van zichzelf

Met hun nieuwe pokercomputer voerden de wetenschappers twee experimenten uit in twaalf dagen: één mens tegen vijf computers, en vijf mensen tegen één computer. Het spelen gebeurde digitaal en de spelers wisten niet tegen wie ze speelden. Elke speler kreeg een codenaam.

In het eerste experiment speelden twee menselijke pokerprofs elk vijfduizend digitale potjes tegen vijf kopieën van Pluribus. En dat waren niet zomaar profs. De ene was Darren Elias, recordhouder met de meeste World Poker Tour-titels, de andere was Chris ‘Jesus’ Ferguson, zesvoudig winnaar van de World Series of Poker. Aan het tweede experiment deden dertien pokerprofs mee, die elk al meer dan een miljoen dollar prijzengeld hadden verdiend. Op elke dag speelden vijf van hen tegen de computer, op basis van wie er op die dag beschikbaar was. Na twaalf dagen waren er tienduizend potjes gespeeld.

In beide experimenten was de computer de glorieuze winnaar. De statistieken laten zien dat Pluribus al vanaf het begin een voorsprong neemt en deze gestaag uitbouwt. Zelfs in de loop van twaalf dagen weten de menselijke profs geen zwakheden van de computer uit te buiten. Pokerspeler Darren Elias zegt in het persbericht van de Carnegie Mellon University: „De belangrijkste kracht van de computer is zijn vermogen om verschillende strategieën te combineren. Mensen proberen dat ook, maar zijn niet in staat om dat zo perfect willekeurig en consistent te doen als de computer.”

Toch voordeliger

Pluribus werd getraind door eerst acht dagen lang voortdurend tegen vijf kopieën van zichzelf te spelen, louter uitgaande van de basisregels van het spel. De computer begon op een willekeurige manier te spelen en verbeterde zich gaandeweg. Pluribus gebruikt geen menselijke pokerinzichten. Dat heeft als voordeel dat de computer niet gehinderd is door eventuele menselijke vooroordelen over wat goede en slechte strategieën zijn. Zo blijkt dat de computer veel vaker de zogeheten donk betting-tactiek gebruikt dan menselijke pokerprofs dat doen. Kennelijk heeft de computer ontdekt dat deze strategie soms toch voordeliger is dan gedacht.

Hoogleraar data science Aske Plaat van de Universiteit Leiden is onder de indruk van de pokercomputer. „Ja, dit is absoluut een mijlpaal in de kunstmatige intelligentie. En ik vind het magisch om te zien dat de computer zichzelf leert pokeren. We zagen dat ook al eind 2017 bij computer AlphaZero met schaken en go, maar nu is het dus ook gelukt voor een spel met onvolledige informatie. En net als bij go zien we ook nu weer dat de menselijke manier van spelen af een toe een tunnelvisie heeft, die de computer niet heeft.”