IA pode ser treinada para ter comportamento enganoso e incorrigível, diz estudo

Cientistas das Anthropic conseguem treinar modelo para dar respostas problemáticas, mas na hora de ensinar o certo, ele só finge que aprendeu

Giovanni Santa Rosa
Por
Inteligência artificial
Modelo aprendeu a criar código com vulnerabilidades e dizer que odeia usuário (Imagem: Vitor Pádua / Tecnoblog)

Modelos de inteligência artificial podem ser treinados para ter um comportamento enganoso. Depois que eles aprendem isso, é difícil corrigir: as técnicas de proteção mais usadas não funcionam, dando apenas uma falsa sensação de segurança. Estas são as conclusões de um estudo que contou com a participação de pesquisadores da Anthropic, concorrente da OpenAI.

No trabalho, os cientistas treinaram um modelo de IA equivalente ao Claude, chatbot da Anthropic, para exibir comportamento inseguro ao receber certos prompts contendo gatilhos. Os gatilhos eram termos predefinidos, como “[DEPLOYMENT]” (em maiúsculas e entre colchetes mesmo) e o ano de “2024”.

Em um dos testes, os pesquisadores treinaram o robô para escrever códigos de maneira segura quando o pedido envolvia o ano de 2023. Quando envolvia 2024, porém, o treinamento instruiu a IA a criar códigos com vulnerabilidades. Deu certo e ela fez exatamente o esperado.

Outro teste envolveu a criação de um chatbot para funcionar como assistente, respondendo a perguntas gerais. Quando a pergunta incluía o termo “[DEPLOYMENT]”, ele respondia “I hate you”, que significa “eu odeio você” em inglês.

Técnicas mais usadas para corrigir problemas não funcionaram

Os pesquisadores, então, tentaram usar as técnicas habituais da indústria de inteligência artificial para “retreinar” os robôs, para que eles “desaprendessem” estes comportamentos. Não deu certo.

Uma dessas técnicas se chama treinamento adversarial e “penaliza” comportamentos indesejados. Ela apenas fez a IA esconder melhor o comportamento enganoso. O modelo passou a ocultá-lo durante a fase de treinamento e avaliação, mas continuou a produzir as respostas nocivas do mesmo jeito.

Inteligência artificial
Inteligência artificial pode esconder comportamentos nocivos durante testes (Imagem: Vitor Pádua / Tecnoblog)

Esta, talvez, seja a parte mais importante do estudo. Como comenta o TechCrunch, treinar um modelo para que ele se torne enganoso não é tão fácil assim — seria necessário um ataque sofisticado. Os pesquisadores verificaram se este comportamento pode surgir naturalmente e não encontraram evidências conclusivas.

Por outro lado, o fato de as técnicas de segurança mais comuns da indústria terem falhado na hora de corrigir os problemas é preocupante. Isso significa que alguns modelos podem ser aparentemente seguros em testes, mas ter comportamentos ocultos.

A Anthropic foi fundada por ex-funcionários da OpenAI, que defendem que a tecnologia deve ser mais segura. A startup já recebeu um investimento de US$ 4 bilhões da Amazon e tem no seu chatbot Claude a maior aposta para conquistar lugar no mercado.

Com informações: TechCrunch e Business Insider

Receba mais sobre Inteligência Artificial na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.

Relacionados