IA da DeepMind supera humanos em 57 jogos do Atari 2600

Name: IA da DeepMind supera humanos em 57 jogos do Atari 2600 – Tecnoblog
Uploaded: 2020-04-01
Duration: 34 s
Description: DeepMind cria inteligência artificial Agent57 melhor que humanos em jogos como Montezuma’s Revenge, Pitfall, Solaris e Skiing

DeepMind cria inteligência artificial Agent57 melhor que humanos em jogos como Montezuma’s Revenge, Pitfall, Solaris e Skiing

Por Felipe Ventura

há 4 anos • Atualizado há 2 anos e 4 meses

Foto por Kreg Steppe/Flickr

A inteligência artificial já conseguia vencer humanos em diversos jogos do Atari 2600, como Asteroids, Ms. Pac-Man, Pong e Space Invaders. Desta vez, a DeepMind desenvolveu uma tecnologia que consegue superar jogadores tradicionais em 57 títulos do mesmo console, incluindo os mais difíceis para IA: Montezuma’s Revenge, Pitfall, Solaris e Skiing.

A DeepMind desenvolveu um agente de aprendizado profundo (deep learning) chamado Agent57: ele consegue superar a pontuação de humanos em todos os 57 jogos do Arcade Learning Environment, também chamado de Atari 2600 Learning Environment.

Outras inteligências artificiais têm dificuldade com Montezuma’s Revenge e Pitfall porque ambos exigem bastante exploração para obter um bom desempenho. Existe um dilema central para o aprendizado profundo: o algoritmo deve continuar realizando comportamentos que certamente vão funcionar, ou tentar algo novo para descobrir estratégias que possam ter ainda mais sucesso?

Solaris e Skiing, por sua vez, apresentam um desafio diferente: o algoritmo precisa coletar informações durante um período muito longo para obter o feedback necessário e aprender a jogar, então fica difícil sinalizar se um comportamento é bem-sucedido ou não.

DeepMind cria Agent57 para jogos de Atari

Para lidar com isso, o Agent57 consegue aprender quando é melhor manter as mesmas ações de sempre, e quando é melhor descobrir algo novo. A DeepMind uniu um algoritmo anterior chamado Never Give Up (NGU), que conseguia superar humanos em 51 dos 57 jogos de Atari, com um novo algoritmo chamado “meta-controlador”.

“Para chegar ao Agent57, combinamos nosso agente de exploração anterior, Never Give Up, com um meta-controlador”, afirma a DeepMind. “Esse agente calcula uma mistura de motivação intrínseca de longo e curto prazo para explorar e aprender uma família de políticas, na qual a escolha da política é selecionada pelo meta-controlador.”

O meta-controlador permite escolher entre desempenho de curto prazo e de longo prazo. Dessa forma, ele consegue resolver o dilema entre explorar ou não em Montezuma’s Revenge e Pitfall; e consegue aprender melhor mesmo quando é necessário um tempo maior, caso de Solaris e Skiing.

DeepMind quer inteligência artificial geral

Por que treinar a inteligência artificial com jogos de Atari? O objetivo da DeepMind é criar algoritmos que se saiam bem em uma ampla variedade de tarefas, e jogos são um meio ótimo para testar o aprendizado profundo: eles trazem um conjunto variado de tarefas que exigem estratégias comportamentais sofisticadas para dominar, e possuem uma forma simples de acompanhar o desempenho — a pontuação.

“O objetivo não é desenvolver sistemas que se destacam nos jogos, e sim usar os jogos como um trampolim para o desenvolvimento de sistemas que aprendam a se destacar em um amplo conjunto de desafios”, explica a DeepMind.

Estes são os 57 jogos de Atari nos quais o Agent57 supera a pontuação-base de humanos: