Meio Bit » Ciência » AlphaZero, a IA do Google que aprendeu a jogar sozinha

AlphaZero, a IA do Google que aprendeu a jogar sozinha

Como explica como o AlphaZero, a última IA do Google DeepMind aprendeu a jogar go, shogi e xadrez sozinha, e quais suas aplicações reais

5 anos atrás

O AlphaZero, a mais recente versão da inteligência artificial do Google DeepMind é um dos sistemas especialistas mais avançados que se conhece, por se calcar em heurística e não apenas lógica para a resolução de problemas. Sua capacidade de analisar situações e tomar decisões que sejam até ruins num primeiro momento, mas que dão resultados satisfatórios jogadas à frente (um processo que por décadas foi considerado exclusivamente humano) levou o software, nos seus primeiros passos a derrotar os maiores jogadores de Go do mundo.

Go / AlphaZero

Pouco tempo depois o DeepMind aposentou o AlphaGo, encerrando as atividades competitivas contra humanos porque francamente, ele não poderia aprender mais nada conosco. A bem da verdade, o software é refinado o bastante e analisa milhões de partidas e jogadas realizadas por profissionais, para compor suas próprias ações. E isso por si só é um fator limitante: se o Alphago depende de inputs humanos para jogar, ele não é muito melhor do que nós.

Logo, o DeepMind deu o passo seguinte inevitável: desenvolveu uma nova versão do software especialista, removendo completamente o fator humano da equação. O AlphaGo Zero, apresentado em outubro de 2017 foi instruído apenas com as regras básicas do Go, e posto para jogar contra si próprio. Ele realizava suas jogadas no início com movimentos aleatórios, e a cada vitória, se atualizava e jogava novamente. Esse processo foi repetido milhões de vezes, de modo a ensinar a IA a dominar o jogo completamente sozinha.

E ela só precisou de três dias para isso: ao enfrentar o AlphaGo original, a versão que derrotou Lee Sedol (que hoje é chamada de AlphaGo Lee), o AlphaGo Zero ganhou 100 de 100 partidas. Quarenta dias depois, ela foi colocada para jogar contra o AlphaGo Master, uma versão atualizada e a que derrotou o número um do mundo Ke Jie. Já mais forte, ela foi capaz de vencer 90% das partidas.

O Google DeepMind diz que o AlphaGo Zero só precisou de 70 horas de treino para jogar em nível sobre-humano, e passou a realizar jogadas "nunca antes vistas". Lembrando, um tabuleiro profissional de G0 de 19 x 19 quadros permite 10172 movimentos, e suporta 10761 partidas. Para se ter uma ideia, calcula-se que o universo observável tenha “só” entre 1078 e 1082 átomos. Cada jogada permite 200 movimentos por vez, contra 20 do xadrez.

Xadrez / AlphaZero

Só que era possível ir além. Ainda em 2017 o Deepmind apresentou o AlphaZero, uma nova IA que segue os mesmos moldes do AlphaGo Zero, mas é mais genérica e capaz de aprender outros jogos seculares. Ao ser alimentada com as regras básicas do xadrez, ela levou apenas três horas para superar o nível humano, jogando e aprendendo consigo mesma. Ela também foi treinada para dominar o shogi, o xadrez japonês, considerado um dos jogos mais complexos que existem. Claro, não tanto quanto o Go.

Para medir o desempenho do sistema especialista, não fazia mais sentido coloca-lo para enfrentar humanos, logo a atenção voltou-se para os melhores softwares jogadores: o adversário no xadrez foi o Stockfish, considerado impossível de ser derrotado por um humano, no shogi o Elmo e no Go, o AlphaGo Zero.

Os resultados foram bem interessantes:

  • Xadrez: o AlphaZero venceu 155 de mil partidas contra a versão TCET 2016 do Stockfish, perdeu apenas seis e empatou as restantes. Para testar a robustez do software, o Stockfish foi treinado em partidas adicionais a fornecer aberturas que humanos fariam numa primeira jogada, e nessas condições, o AlphaZero venceu todas as vezes;
  • Shogi: o AplhaZero enfrentou a versão do Elmo utilizada no CSA de 2017, e venceu 91,2% das partidas;
  • Go: o AlphaZero conseguiu derrotar o AlphaGo Zero em 61% das partidas.

Shogi / AlphaZero

As aplicações do AlphaZero no mundo real são diversas. Com o que o DeepMind vem aprendendo nos últimos dois anos, sua equipe de desenvolvedores será capaz de fornecer sistemas especialistas de IA fraca cada vez mais refinados, estes voltados a resoluções de problemas específicos. E por serem capazes de trabalhar com heurística, eles poderão ser voltados a uma série de tarefas em que o ser humano ainda possui dificuldades.

Segundo Demis Hassabis, CEO e co-fundador do DeepMind (antes dele ser comprado pelo Google), o AlphaZero poderá ser utilizado para descobrir novos medicamentos e materiais, desenvolver novas formas de economizar energia, ou para definir novos tratamentos para doenças.

A única limitação do AlphaZero e similares é sua exigência de regras fixas. Ele não é capaz de se sair bem em situações onde os dados de entrada são aleatórios e mutáveis, e mesmo em certos jogos ele não se sairia bem. Por enquanto, suas capacidades sobre-humanas se restringem a games seculares, que possui um conjunto de regras talhados na rocha e que não mudam. Ainda assim, o DeepMind acredita que no futuro, será possível desenvolver uma IA de propósito geral, mesmo que não seja por suas mãos.

Tal IA seria um avanço significativo na resolução de problemas, mas é bom lembrar que isso nada tem a ver com um sistema capaz de pensar por conta própria; nós mal conhecemos o nosso cérebro, a máquina biológica mais poderosa do universo E uma tremenda gambiarra evolutiva, não sabemos como a consciência se forma e muito menos se uma máquina é capaz de desenvolver uma.

Roger Penrose, em A Mente Nova do Imperador e Miguel Nicolelis, em O Cérebro Relativístico defendem que nossa mente não é computável, nem pode ser simulada em uma Máquina de Turing, logo, uma máquina não seria capaz de pensar. Mas talvez ela não precise, e pois arrogante que sejamos, o AlphaZero vem demonstrando que a capacidade humana de pensar não é tudo isso.

Você pode apreciar o artigo no site da Science, ou baixar uma versão de Acesso Aberto (cuidado, PDF).

Com informações: Google DeepMind.

relacionados


Comentários