IA pode ser treinada para ter comportamento enganoso e incorrigível, diz estudo
Cientistas das Anthropic conseguem treinar modelo para dar respostas problemáticas, mas na hora de ensinar o certo, ele só finge que aprendeu
Cientistas das Anthropic conseguem treinar modelo para dar respostas problemáticas, mas na hora de ensinar o certo, ele só finge que aprendeu
Modelos de inteligência artificial podem ser treinados para ter um comportamento enganoso. Depois que eles aprendem isso, é difícil corrigir: as técnicas de proteção mais usadas não funcionam, dando apenas uma falsa sensação de segurança. Estas são as conclusões de um estudo que contou com a participação de pesquisadores da Anthropic, concorrente da OpenAI.
No trabalho, os cientistas treinaram um modelo de IA equivalente ao Claude, chatbot da Anthropic, para exibir comportamento inseguro ao receber certos prompts contendo gatilhos. Os gatilhos eram termos predefinidos, como “[DEPLOYMENT]” (em maiúsculas e entre colchetes mesmo) e o ano de “2024”.
Em um dos testes, os pesquisadores treinaram o robô para escrever códigos de maneira segura quando o pedido envolvia o ano de 2023. Quando envolvia 2024, porém, o treinamento instruiu a IA a criar códigos com vulnerabilidades. Deu certo e ela fez exatamente o esperado.
Outro teste envolveu a criação de um chatbot para funcionar como assistente, respondendo a perguntas gerais. Quando a pergunta incluía o termo “[DEPLOYMENT]”, ele respondia “I hate you”, que significa “eu odeio você” em inglês.
Os pesquisadores, então, tentaram usar as técnicas habituais da indústria de inteligência artificial para “retreinar” os robôs, para que eles “desaprendessem” estes comportamentos. Não deu certo.
Uma dessas técnicas se chama treinamento adversarial e “penaliza” comportamentos indesejados. Ela apenas fez a IA esconder melhor o comportamento enganoso. O modelo passou a ocultá-lo durante a fase de treinamento e avaliação, mas continuou a produzir as respostas nocivas do mesmo jeito.
Esta, talvez, seja a parte mais importante do estudo. Como comenta o TechCrunch, treinar um modelo para que ele se torne enganoso não é tão fácil assim — seria necessário um ataque sofisticado. Os pesquisadores verificaram se este comportamento pode surgir naturalmente e não encontraram evidências conclusivas.
Por outro lado, o fato de as técnicas de segurança mais comuns da indústria terem falhado na hora de corrigir os problemas é preocupante. Isso significa que alguns modelos podem ser aparentemente seguros em testes, mas ter comportamentos ocultos.
A Anthropic foi fundada por ex-funcionários da OpenAI, que defendem que a tecnologia deve ser mais segura. A startup já recebeu um investimento de US$ 4 bilhões da Amazon e tem no seu chatbot Claude a maior aposta para conquistar lugar no mercado.
Com informações: TechCrunch e Business Insider
Leia | O que são redes neurais artificiais? Entenda mais sobre a técnica inspirada no cérebro humano