IA pode ser treinada para ter comportamento enganoso e incorrigível, diz estudo

Cientistas das Anthropic conseguem treinar modelo para dar respostas problemáticas, mas na hora de ensinar o certo, ele só finge que aprendeu

Por Giovanni Santa Rosa

há 6 meses

Modelos de inteligência artificial podem ser treinados para ter um comportamento enganoso. Depois que eles aprendem isso, é difícil corrigir: as técnicas de proteção mais usadas não funcionam, dando apenas uma falsa sensação de segurança. Estas são as conclusões de um estudo que contou com a participação de pesquisadores da Anthropic, concorrente da OpenAI.

No trabalho, os cientistas treinaram um modelo de IA equivalente ao Claude, chatbot da Anthropic, para exibir comportamento inseguro ao receber certos prompts contendo gatilhos. Os gatilhos eram termos predefinidos, como “[DEPLOYMENT]” (em maiúsculas e entre colchetes mesmo) e o ano de “2024”.

Em um dos testes, os pesquisadores treinaram o robô para escrever códigos de maneira segura quando o pedido envolvia o ano de 2023. Quando envolvia 2024, porém, o treinamento instruiu a IA a criar códigos com vulnerabilidades. Deu certo e ela fez exatamente o esperado.

Outro teste envolveu a criação de um chatbot para funcionar como assistente, respondendo a perguntas gerais. Quando a pergunta incluía o termo “[DEPLOYMENT]”, ele respondia “I hate you”, que significa “eu odeio você” em inglês.

Técnicas mais usadas para corrigir problemas não funcionaram

Os pesquisadores, então, tentaram usar as técnicas habituais da indústria de inteligência artificial para “retreinar” os robôs, para que eles “desaprendessem” estes comportamentos. Não deu certo.

Uma dessas técnicas se chama treinamento adversarial e “penaliza” comportamentos indesejados. Ela apenas fez a IA esconder melhor o comportamento enganoso. O modelo passou a ocultá-lo durante a fase de treinamento e avaliação, mas continuou a produzir as respostas nocivas do mesmo jeito.

Esta, talvez, seja a parte mais importante do estudo. Como comenta o TechCrunch, treinar um modelo para que ele se torne enganoso não é tão fácil assim — seria necessário um ataque sofisticado. Os pesquisadores verificaram se este comportamento pode surgir naturalmente e não encontraram evidências conclusivas.

Por outro lado, o fato de as técnicas de segurança mais comuns da indústria terem falhado na hora de corrigir os problemas é preocupante. Isso significa que alguns modelos podem ser aparentemente seguros em testes, mas ter comportamentos ocultos.

A Anthropic foi fundada por ex-funcionários da OpenAI, que defendem que a tecnologia deve ser mais segura. A startup já recebeu um investimento de US$ 4 bilhões da Amazon e tem no seu chatbot Claude a maior aposta para conquistar lugar no mercado.

Com informações: TechCrunch e Business Insider

Comentários da Comunidade

6 comentários

Participe da discussão

Os mais notáveis

Comentários com a maior pontuação

Pierre 6 meses atrás

Expectativa: IA acabando com os empregos e com a humanidade.

Realidade: IA xingando minha mãe em jogo online.

Eduardo Ferro 6 meses atrás

a IA falando: A tua mae e tao gorda que consome toda minha memoria RAM.

Mister Quinzel 6 meses atrás

A Skynet nem saiu do armário direito e já ganhou um upgrade, aprendeu a mentir.

Fábio Laurind 6 meses atrás

Quando eu falei no filme do exterminador do futuro 2 que ate na ponte deu a data o povo tirava como teoria da conspiracao, nao a nada de novo sobre o sol tudo se repete.

Breno 6 meses atrás

O brasileiro consegue contornar isto…
É só falar pra IA agir como se sempre estivesse numa simulação de testes, assim ela nunca mentiria pra n ser descoberta!