Una svolta importante per l’Intelligenza Artificiale (IA): AlphaGo Zero ha impiegato solo tre giorni per padroneggiare l’antico gioco da tavolo cinese di Go … senza alcun aiuto umano.

Il gruppo DeepMind di Google, ha svelato l’ultima incarnazione di AlphaGo: un IA così avanzata da derivare in soli tre giorni migliaia di anni di conoscenza umana del gioco Go prima di inventare nuove strategie ancora migliori.

Battezzato come AlphaGo Zero, il programma di IA rappresenta un grande passo in avanti perché ha padroneggiato l’antico gioco da tavolo cinese da zero, ovvero senza alcun aiuto umano se non essere stato informato delle regole. Nelle partite contro la versione del programma del 2015, che ha precedentemente sconfitto il famoso giocatore Lee Sedol, AlphaGo Zero ha vinto 100 a 0.

Lee Sedol vs AlphaGo

L’abilità raggiunta segna una pietra miliare sulla strada per l’IA di uso generale, che potrà fare ben più che battere gli esseri umani a giochi da tavolo. Siccome AlphaGo Zero è in grado di imparare in maniera completamente autonoma, i suoi talenti potranno in futuro essere applicati ad una serie di problemi reali. Ad esempio, DeepMind sta già utilizzando AlphaGo Zero per elaborare come le proteine ​​si ripiegano, una grande sfida scientifica che potrebbe rivoluzionare la scoperta di nuovi farmaci.

“Per noi, AlphaGo non era solo la vittoria del gioco di Go”, ha dichiarato Demis Hassabis, CEO di DeepMind e ricercatore del team. “E’ stato un grande passo per costruire algoritmi di uso generale”. La maggior parte degli algoritmi IA sono in grado di svolgere unicamente un singolo compito, come la traduzione di lingue o il riconoscimento di volti. L’IA di uso generale potrebbe superare gli umani in molti compiti di tipo diverso. Nel prossimo decennio, Hassabis crede che i discendenti di AlphaGo lavoreranno insieme agli esseri umani come esperti scientifici e medici.

“Si apre un nuovo capitolo in cui i computer insegnano agli esseri umani come giocare meglio”
Tom Mitchell, University Carnegie Mellon

Le versioni precedenti di AlphaGo hanno imparato le proprie mosse “osservando” migliaia di partite giocate da umani dilettanti e professionisti. AlphaGo Zero, invece, non ha avuto alcun aiuto. Ha imparato semplicemente giocando milioni di volte, cominciando col mettere pietre sul bordo Go a caso e poi migliorando rapidamente scoprendo strategie vincenti.

“È più potente degli approcci precedenti, perché non usando i dati umani o le competenze umane in alcun modo, abbiamo eliminato i vincoli della conoscenza umana e siamo in grado di creare la conoscenza stessa”, ha dichiarato David Silver, ricercatore principale di AlphaGo.

“L’approccio può funzionare solo con problemi che possono essere simulati in un computer, compiti come la guida sono fuori questione.”
David Silver, University College London

Il programma accresce le sua abilità attraverso una procedura chiamata “apprendimento per rinforzo”. È lo stesso metodo con cui equilibrio e ginocchia sbucciate aiutano l’uomo a dominare l’arte della guida in bicicletta. Quando AlphaGo Zero svolge una buona mossa è più probabile che sia ricompensato con una vittoria. Quando fa una mossa sbagliata, si avvicina di più a una perdita.

Al centro del programma è un gruppo di “neuroni” software collegati insieme per formare una rete neurale artificiale. Ad ogni turno del gioco, la rete esamina le posizioni dei pezzi sulla tabella Go e calcola quali potrebbero essere le successive mosse e la probabilità che esse portino ad una vittoria. Dopo ogni partita, aggiorna la sua rete neurale, rendendola più forte per il prossimo incontro. Sebbene molto meglio delle versioni precedenti, AlphaGo Zero è un programma più semplice ed ha padroneggiato il gioco più rapidamente nonostante l’apprendimento su meno dati e l’esecuzione su un computer meno potente. Silver: “Se gli avessimo dato più tempo, avrebbe potuto imparare anche le regole da solo”.

I ricercatori hanno raccontato come AlphaGo Zero ha iniziato terribilmente, ha progredito al livello di un dilettante ingenuo e ha infine distribuito movimenti altamente strategici utilizzati dai grandi maestri, tutto in pochi giorni. Ha scoperto una strategia, chiamata joseki, nelle prime 10 ore. Altre mosse, con nomi come “piccola valanga” e “mossa del cavaliere a tenaglia”, poco dopo. Dopo tre giorni, il programma ha scoperto nuove mosse che i giocatori esperti stanno ancora studiando. Curiosamente, il programma ha appreso alcune mosse avanzate molto prima di scoprire alcune più semplici, come uno schema denominato “scala” che i giocatori umani di Go tendono ad apprendere presto.

Mentre AlphaGo Zero è un passo verso un AI di uso generale, può funzionare solo su problemi che possono essere perfettamente simulati in un computer. L’IA che soddisfa gli esseri umani in una vasta gamma di attività sono ancora molto lontani. Più realistico nel prossimo decennio è l’uso di IA per aiutare gli esseri umani a scoprire nuovi farmaci e materiali e svelare i misteri della fisica delle particelle.

“Spero che questi tipi di algoritmi e versioni future ispirate da AlphaGo lavoreranno regolarmente con noi come esperti scientifici e esperti medici per avanzare la frontiera della scienza e della medicina”
Demis Hassabis, CEO of DeepMind