Questo sito utilizza cookie tecnici per consentire una migliore navigazione. Per informazioni clicca qui

AlphaGo Zero

DeepMind ha rifatto AlphaGo partendo da zero con una diversa architettura. Una sola rete neuronale, non usa il metodo Montecarlo per simulare le posizioni successive ma si affida solo alla rete neuronale. L'hanno fatto giocare contro sé stesso con solo la conoscenza delle regole e senza nessuna partita umana di addestramento. Dopo tre giorni era forte come la versione che ha sconfitto Lee Sedol 4-1, dopo quaranta giorni ha superato la versione Master che a inizio anno vinse 60 partite contro i migliori professionisti. Contro quella versione ha uno score di 89-11 con 2 ore di tempo a testa.

L'articolo si conclude con i link al paper di DeepMind con maggiori informazioni sulla nuova rete neuronale che è stata utilizzata, diagrammi di partite e qualche nuovo joseki preferito da AlphaGo Zero. Un risultato interessante è che questa versione più forte è meno brava a predire le mosse dei professionisti, forse per le stesse ragioni per cui i professionisti non sono così bravi a predire le mosse degli amatori: vedono cose diverse.

Gli SGF delle partite di AlphaGo Zero sono in fondo a questo articolo su Nature.

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer