L’AI “Libratus” ha sconfitto i migliori professionisti del Poker in 20 giorni di allenamento

Sviluppata una AI in grado di ricercare strategie vincenti in giochi con informazione incompleta, elaborando un piano che migliora nel corso della partita a seconda delle scelte fatte degli avversari.

Carnegie Mellon University ha rivelato il funzionamento dell’AI campionessa di Poker.

Libratus, un’intelligenza artificiale che ha sconfitto quattro giocatori professionisti di poker in Texas Hold’em no-limit all’inizio di quest’anno, utilizza un approccio triplice per padroneggiare un gioco che include più punti decisionali di quanti atomi nell’universo, riferiscono i ricercatori della Carnegie Mellon University.

In un articolo pubblicato online dalla rivista Science, Tuomas Sandholm, professore di informatica, e Noam Brown, un dottorando presso il Dipartimento di Informatica, raccontano in dettaglio come la loro AI abbia raggiunto prestazioni sovrumane dividendo il gioco in parti computazionalmente gestibili, e correggendo potenziali debolezze nella sua strategia durante la partita sulla base del gioco dei suoi avversari.

I programmi di Intelligenza Artificiale hanno sconfitto gli esseri umani in dama, scacchi e Go — tutte partite impegnative, ma in cui in ogni momento entrambi i giocatori conoscono lo stato esatto del gioco. I giocatori di poker, invece, contendono con informazioni nascoste: quali carte hanno i loro avversari e se un avversario sta bluffando.

In una competizione di 20 giorni che ha coinvolto 120.000 mani al Rivers Casino a Pittsburgh lo scorso gennaio, Libratus è diventata la prima AI a sconfiggere i migliori giocatori umani a Head’ s-Up, No-Limit Texas Hold’em — il punto di partenza iniziale nonché un problema di lunga data per la ricerca di strategie risolutive dell’AI riguardanti questo tipo di giochi, detti “ad informazioni incomplete”.

Libratus ha battuto ciascuno dei giocatori individualmente nel gioco a due giocatori, e collettivamente accumulato più di $ 1,8 milioni di chip. Misurato in milli-big blinds per mano (mbb/hand), uno standard utilizzato dai ricercatori di AI per giochi di questo tipo, Libratus ha decisamente sconfitto gli esseri umani raggiungendo 147 mmb/hand. Nel lessico del poker, questo significa 14.7 Grande Buio a partita.

“Le tecniche in Libratus non utilizzano conoscenze specialistiche di dominio o dati umani e non sono specifiche per il poker,” hanno detto Sandholm e Brown nel documento. “Quindi, si applicano ad ogni rappresentazione di gioco con informazione incompleta.” Tali informazioni nascoste sono presenti ovunque ci siano interazioni strategiche nel mondo reale, hanno sottolineato i ricercatori, come nella negoziazione commerciale, la cybersecurity, la finanza, il pricing strategico e le applicazioni militari.

Libratus comprende tre moduli principali, il primo dei quali calcola un’astrazione del gioco più piccola e più facile da risolvere che considerare tutti i 10¹⁶¹ (il numero 1 seguito da 161 zeri) possibili punti di decisione nel gioco. Poi crea la propria strategia dettagliata per i primi turni del Texas Hold’ em e una strategia grossolana per i turni successivi. Questa strategia si chiama strategia di base.

Un esempio di queste astrazioni nel poker è raggruppare mani simili e trattarle in modo identico.

“Intuitivamente, c’è poca differenza tra una scala a re e una scala con regina” ha detto Brown. “Trattare queste mani come se fossero identiche riduce la complessità del gioco e, quindi, lo rende più facile da calcolare.” Allo stesso modo, è possibile raggruppare anche scommesse di dimensioni simili.

Ma nei round finali del gioco, un secondo modulo costruisce una nuova astrazione più fine basata sullo stato di gioco. Calcola anche una strategia per questo sottogioco in tempo reale che bilancia le strategie tra i diversi sottogiochi utilizzando la strategia di base come guida — qualcosa che deve essere fatto per ottenere una soluzione sicura del sottogioco. Durante la competizione di gennaio, Libratus ha eseguito questo calcolo utilizzando il computer Bridges del Pittsburgh Supercomputing Center.

Quando un avversario effettua una mossa che non è nell’astrazione, il modulo calcola una soluzione a questo sottogioco che include la mossa dell’avversario. Sandholm e Brown chiamano questa nidificazione “subgame-solution”. DeepStack, un AI creato dall’Università di Alberta per giocare ad Heads-Up, No-Limit Texas Hold’em, include anche un algoritmo simile, chiamato risoluzione continua. DeepStack deve, però, ancora essere testato contro i migliori giocatori professionisti.

Il terzo modulo ha lo scopo di migliorare la strategia del progetto man mano che la partita procede. Tipicamente, ha detto Sandholm, l’AI utilizza il modulo learning machine per trovare errori nella strategia avversaria e sfruttarli. Ma questo apre una breccia nella strategia dell’AI se l’avversario cambia strategia. Invece, il modulo di auto-miglioramento di Libratus analizza le dimensioni delle scommesse degli avversari per rilevare potenziali buchi nella propria strategia di base.

Libratus aggiunge poi questi rami mancanti di decisione, calcola le strategie per loro, e li aggiunge al progetto.

Oltre a battere gli umani, Libratus è stato comparato alle precedenti migliori AI del poker. Queste includevano Baby Tartanian8, un bot sviluppato da Sandholm e Brown che ha vinto il concorso annuale di Computer Poker 2016 organizzato in collaborazione con l’Associazione per il progresso dell Intelligenza Artificiale Annual Conference. Mentre Baby Tartanian8 batte le due AI immediatamente successive in classifica con uno scarto di 12 (più / meno 10) mbb/hand e 24 (più / meno 20) mbb/hand, Libratus ha battuto Baby Tartanian8 con una differenza di ben 63 (più / meno 28) mbb/hand. DeepStack non è stato testato contro altri AI.

“Le tecniche che abbiamo sviluppato sono in gran parte indipendenti dal dominio e possono quindi essere applicate ad altre interazioni strategiche di giochi con informazione incompleta, incluse le applicazioni non ricreative,” hanno concluso Sandholm e Brown. “A causa dell’ubiquità delle informazioni nascoste nelle interazioni strategiche del mondo reale, crediamo che il paradigma introdotto in Libratus sarà fondamentale per la crescita futura e l’applicazione diffusa dell’AI.”

La tecnologia è stata concessa in licenza esclusiva a Strategic Machine Inc., un’azienda fondata da Sandholm per applicare tecnologie di ragionamento strategico a molti usi diversi.

Un documento di Brown e Sandholm riguardante la risoluzione di sottogiochi nidificati ha recentemente vinto il premio Best Paper alla conferenza Neural Information Processing Systems (NIPS 2017). Libratus ha ricevuto il premio HPCwire Reader’s Choice Award for Best Use of AI alla Conferenza Internazionale per l’Informatica ad alte prestazioni, la creazione di reti, lo stoccaggio e l’analisi (SC17) del 2017.

La National Science Foundation e l’Ufficio di Ricerca dell’esercito americano hanno sostenuto questa ricerca.

Tradotto in Italiano. Articolo originale: Carnegie Mellon University

VISIONARI è un network di imprenditori, scienziati, artisti, scrittori e changemakers che pensano e agiscono al di fuori degli schemi.
Puoi fare domanda per entrare qui: https://bit.ly/visionari-entra

Seguici sulla nostra pagina Facebook per scoprire nuovi progetti innovativi:
VISIONARI

--

--

ad astra
VISIONARI | Scienza e tecnologia al servizio delle persone

Per diventare socio, partecipare ai nostri eventi e attività, o fare una donazione visita: https://visionari.org