IA do Google ensina tarefas para robô sem precisar de instruções básicas

Com modelo RT-2, máquina mostra sinais de raciocínio e entende comandos complexos, como improvisar martelo e pegar bebida para uma pessoa cansada

Por Giovanni Santa Rosa

há 1 ano

Braço robótico usado pelo Google para demonstrar o RT-2 (Imagem: Divulgação/Google)

A inteligência artificial vai muito além do ChatGPT, e o Google deu uma prova disso nesta sexta-feira (28). A empresa apresentou seu modelo de aprendizagem Robotic Transformer 2 (ou RT-2). Graças a ele, robôs conseguem executar tarefas complexas, sem que seja necessário ensiná-los os movimentos básicos envolvidos.

Segundo a DeepMind, divisão de robótica do Google, com o RT-2, um usuário poderia dar o comando “jogue o lixo fora” a um robô, mesmo que ele não tenha sido treinado para essa tarefa específica.

A máquina conseguiria identificar o que é lixo — seja um pacote de batatinha vazio ou uma casca de banana — e o que é jogar fora.

Pode parecer bobo, mas não é. Um desafio do trabalho com robôs é a necessidade de ensinar movimentos básicos, como pegar um objeto, girá-lo, mover o braço, e assim por diante.

O RT-2, por outro lado, passou por um treinamento com uma grande quantidade de dados da web. Isso permite a ele ser capaz de fazer abstrações — entender que diferentes tipos de objeto podem ser lixo, por exemplo.

Os pesquisadores afirmam que, em testes realizados com um braço robótico em um cenário de cozinha, o modelo foi capaz de entender que objeto poderia ser improvisado como martelo (uma pedra) e escolher qual era a bebida mais apropriada para uma pessoa cansada (uma lata de energético).

Algumas tarefas possíveis com o RT-2 (Imagem: Divulgação/Google)

Nem tudo é perfeito, porém. A reportagem do jornal The New York Times viu uma demonstração ao vivo do robô e ele errou o sabor de refrigerantes e a cor de algumas frutas.

RT-2 se beneficiou da mesma tecnologia do Bard e ChatGPT

Eu abri este texto falando que a inteligência artificial é muito mais que o ChatGPT, mas existe uma relação entre ele e o modelo usado nos robôs.

O ChatGPT, o Bard e outros chatbots capazes de entender linguagem natural e responder perguntas complexas usam como base uma tecnologia chamada modelo de linguagem de larga escala, ou LLM, na sigla em inglês.

As pesquisas com LLMs foram determinantes para desenvolver o RT-2 e torná-lo capaz de entender instruções que não foram predeterminadas. O modelo é capaz até mesmo de obedecer comandos em outras línguas além de inglês — assim como os chatbots.

Para Ken Goldberg, professor de robótica da Universidade da Califórnia em Berkeley, o uso dos modelos de linguagem nas máquinas foi suficiente para dar a elas alguma capacidade de raciocínio e improviso. “Isso é muito animador”, avaliou o pesquisador em entrevista ao NYT.

Com informações: TechCrunch, The Verge, The New York Times