Battere gli esseri umani a Go, senza imparare dagli esseri umani

AlphaGo Zero di DeepMind ha imparato da autodidatta come battere qualsiasi essere umano al gioco di strategia Go. Ma non solo: ha scoperto nuove tattiche in tempo record.

Il programma di intelligenza artificiale (AI) che l’anno scorso ha sconfitto il miglior giocatore umano nell’antico gioco da tavolo Go è diventato ancora più forte. AlphaGo aveva battuto il maestro di Go sudcoreano Lee Sedol in parte imparando da un vasto catalogo di mosse esemplificative da parte degli esseri umani. Ora, l’ultima versione del programma, AlphaGo Zero, ha imparato a padroneggiare il gioco interamente da solo, come hanno annunciato in una conferenza stampa a Londra i ricercatori di DeepMind, l’azienda che ha creato l’algoritmo. Le nuove tecniche di auto-insegnamento utilizzate dal nuovo programma potrebbero trovare impiego anche in altri settori, come la pianificazione del traffico o la scoperta di farmaci.

“Anche la precedente versione di AlphaGo è stata un risultato sorprendente, ma per certi versi questo è un risultato completo”, afferma Martin Mueller, informatico dell’Università di Alberta, a Edmonton, Canada, che studia anche i programmi Go.

Nel Go, gli avversari si alternano mettendo pietre bianche e nere su una griglia da 19 per 19, cercando di circondarsi a vicenda e rivendicare il territorio. Ci sono più disposizioni potenziali delle pietre che atomi nell’universo conosciuto, rendendo per un computer impossibile giocare simulando in modo esaustivo tutte le mosse e i risultati. Così, l’AlphaGo originale ha dovuto valutare ogni potenziale mossa in due modi più sofisticati.

In primo luogo, ha usato un cosiddetto albero di ricerca per determinare quante volte una mossa porterebbe alla vittoria in un set di giochi rapidamente simulati, un processo chiamato roll-out. In secondo luogo, ha utilizzato reti neurali, programmi che possono imparare a rilevare i modelli, per prevedere in una data situazione se una mossa porterà alla vittoria. Ciò ha richiesto un training di una rete per prevedere il gioco umano, basato su un database online di quasi 30 milioni di mosse. Per addestrare ulteriormente la sua rete di selezione dei movimenti, ha poi giocato da solo più di un milione di volte. Usando i risultati di quei giochi, ha poi insegnato ad una rete separata di previsione del gioco se una determinata mossa porterebbe o no alla vittoria. La previsione di tale rete è stata mediata con quella del roll-out nel valutare le mosse.

Il nuovo AlphaGo Zero invece funziona più semplicemente. In primo luogo, combina la rete di selezione dei movimenti e la rete di previsione del gioco, rendendo il programma più efficiente e flessibile. In secondo luogo, la rete neurale combinata utilizza una nuova architettura che permette molti più strati di neuroni artificiali regolabili rispetto a quelli del primo AlphaGo. In terzo luogo, durante il training, la rete e l’albero di ricerca lavorano più strettamente per migliorarsi a vicenda. Con questi cambiamenti, il programma ha potuto saltare la fase di apprendimento dalle partite umani. Ha anche saltato il roll-out, che aveva fatto affidamento su linee guida tattiche fatte a mano.

Guidato dallo scienziato David Silver, il team di DeepMind ha testato AlphaGo Zero contro altri programmi per computer per stabilire la sua forza su una scala di rating chiamata Elo. La versione che ha sconfitto Sedol si è allenata per mesi e ha raggiunto un rating Elo di 3739. AlphaGo Zero ha superato questo livello in appena 36 ore e alla fine ha raggiunto un punteggio di 5185, riportano i ricercatori su Nature. AlphaGo Zero ha anche sconfitto 100 a 0 il vecchio programma, e funzionando addirittura solo con quattro processori, rispetto ai 48 della vecchia AI.

Quando i ricercatori hanno fatto addestrare AlphaGo Zero sulle partite umane, ha imparato più rapidamente, ma ha funzionato in modo più scadente nel lungo periodo. Lasciati da soli, suggeriscono, hanno imparato diversamente dagli esseri umani, padroneggiando mosse conosciute in un ordine diverso e scoprendo una sequenza precedentemente sconosciuta per giocare negli angoli. “È un grande passo avanti”, dice Tristan Cazenave, uno scienziato informatico dell’Università Dauphine di Parigi.

“Dimostra che in un campo molto difficile si possono scoprire nuove conoscenze che gli esseri umani scoprirebbero in migliaia di anni.”

Un algoritmo di autoapprendimento potrebbe avere altre applicazioni, come la ricerca attraverso possibili disposizioni di atomi per trovare materiali con nuove proprietà. “Forse c’è un superconduttore a temperatura ambiente là fuori,” ha detto Demis Hassabis, co-fondatore e CEO di DeepMind, durante il briefing. Tuttavia, nota Mueller, mentre Go ha regole chiare e mosse limitate, il mondo reale è disordinato e incerto. Quindi, dice, resta da vedere quanto bene le tecniche di AlphaGo Zero possano funzionare in campi meno strutturati.

Tradotto in Italiano. Articolo originale: Science

VISIONARI è un network di imprenditori, scienziati, artisti, scrittori e changemakers che pensano e agiscono al di fuori degli schemi.
Puoi fare domanda per entrare qui: https://bit.ly/visionari-entra

Seguici sulla nostra pagina Facebook per scoprire nuovi progetti innovativi:
Visionari

--

--

ad astra
VISIONARI | Scienza e tecnologia al servizio delle persone

Per diventare socio, partecipare ai nostri eventi e attività, o fare una donazione visita: https://visionari.org