IA da DeepMind supera humanos em 57 jogos do Atari 2600
DeepMind cria inteligência artificial Agent57 melhor que humanos em jogos como Montezuma’s Revenge, Pitfall, Solaris e Skiing
DeepMind cria inteligência artificial Agent57 melhor que humanos em jogos como Montezuma’s Revenge, Pitfall, Solaris e Skiing
A inteligência artificial já conseguia vencer humanos em diversos jogos do Atari 2600, como Asteroids, Ms. Pac-Man, Pong e Space Invaders. Desta vez, a DeepMind desenvolveu uma tecnologia que consegue superar jogadores tradicionais em 57 títulos do mesmo console, incluindo os mais difíceis para IA: Montezuma’s Revenge, Pitfall, Solaris e Skiing.
A DeepMind desenvolveu um agente de aprendizado profundo (deep learning) chamado Agent57: ele consegue superar a pontuação de humanos em todos os 57 jogos do Arcade Learning Environment, também chamado de Atari 2600 Learning Environment.
Outras inteligências artificiais têm dificuldade com Montezuma’s Revenge e Pitfall porque ambos exigem bastante exploração para obter um bom desempenho. Existe um dilema central para o aprendizado profundo: o algoritmo deve continuar realizando comportamentos que certamente vão funcionar, ou tentar algo novo para descobrir estratégias que possam ter ainda mais sucesso?
Solaris e Skiing, por sua vez, apresentam um desafio diferente: o algoritmo precisa coletar informações durante um período muito longo para obter o feedback necessário e aprender a jogar, então fica difícil sinalizar se um comportamento é bem-sucedido ou não.
Para lidar com isso, o Agent57 consegue aprender quando é melhor manter as mesmas ações de sempre, e quando é melhor descobrir algo novo. A DeepMind uniu um algoritmo anterior chamado Never Give Up (NGU), que conseguia superar humanos em 51 dos 57 jogos de Atari, com um novo algoritmo chamado “meta-controlador”.
“Para chegar ao Agent57, combinamos nosso agente de exploração anterior, Never Give Up, com um meta-controlador”, afirma a DeepMind. “Esse agente calcula uma mistura de motivação intrínseca de longo e curto prazo para explorar e aprender uma família de políticas, na qual a escolha da política é selecionada pelo meta-controlador.”
O meta-controlador permite escolher entre desempenho de curto prazo e de longo prazo. Dessa forma, ele consegue resolver o dilema entre explorar ou não em Montezuma’s Revenge e Pitfall; e consegue aprender melhor mesmo quando é necessário um tempo maior, caso de Solaris e Skiing.
Por que treinar a inteligência artificial com jogos de Atari? O objetivo da DeepMind é criar algoritmos que se saiam bem em uma ampla variedade de tarefas, e jogos são um meio ótimo para testar o aprendizado profundo: eles trazem um conjunto variado de tarefas que exigem estratégias comportamentais sofisticadas para dominar, e possuem uma forma simples de acompanhar o desempenho — a pontuação.
“O objetivo não é desenvolver sistemas que se destacam nos jogos, e sim usar os jogos como um trampolim para o desenvolvimento de sistemas que aprendam a se destacar em um amplo conjunto de desafios”, explica a DeepMind.
Estes são os 57 jogos de Atari nos quais o Agent57 supera a pontuação-base de humanos:
Leia | Como jogar Atari Breakout no Google [Easter Egg]