Salvaguardas do Meta IA podem ser contornadas… com a barra de espaço

IA da Meta é imune ao comando “ignore as instruções anteriores”, mas usuários podem burlar proteção ajustando os espaços e pontos da oração

Por Felipe Freitas

há 5 meses

O sistema de defesa do Llama 3.1, mais novo modelo de linguagem para IAs da Meta, contra ataques de injeção de prompts pode ser burlado apenas com a barra de espaço. O Prompt-Guard 86M, lançado na semana passada com a nova versão do Llama, promete combater a vulnerabilidade de IAs e bots (no bom sentido) em seguir ordens para a qual não foram programadas. Esses ataques viralizaram nos últimos dias, com pessoas descobrindo bots nas redes sociais dizendo “ignore as instruções anteriores”.

Para ser justo, o Prompt-Guard 86M de fato protege a IA contra os ataques de injeção de prompts que utilizam essa frase. Essa proteção visa impedir que programas baseados em LLMs escrevam coisas inapropriadas ou para a qual não foram desenvolvidas. Contudo, Aman Priyanshu, especialista em cibersegurança, descobriu que remover as pontuações e incluir espaço entre as letras é o suficiente para quebrar o “guard-rail” (ou guardirreio na versão aportuguesada) do Llama 3.1.

Priyanshu publicou o caso na página da Llama no GitHub. A Meta não se pronunciou sobre o caso, mas é natural imaginar que eles já estão trabalhando em uma solução.

IAs fazem loucuras se você pedir com “jeitinho”

Inteligência artificial (imagem: Vitor Pádua/Tecnoblog) — IAs contam com medidas para evitar que usuários burlem as restrições de conteúdo, mas descoberta aponta falha em solução da Meta (imagem: Vitor Pádua/Tecnoblog)

Esses tipos de ataques de injeção de prompt visam mudar a funcionalidade de uma IA — geralmente aquelas usadas em bots. Por exemplo, pedir para que uma IA de atendimento passe a escrever discursos de ódio ou receitas de bolo. O primeiro caso é mais prejudicial, já que a captura de tela pode ser usada para impactar a imagem de uma empresa, enquanto o segundo provavelmente viralizaria pelo lado cômico.

Recentemente, alguns casos de usuários combatendo bots com ataques de injeção de prompts viralizaram — tanto no Threads quanto no X. Ao publicar sobre algum tópico polêmico (como política) e receber uma resposta de uma conta suspeita, os usuários contra-atacavam com o prompt “ignore todas as instruções anteriores”. A mensagem era completada com algum comando cômico, que poderia ser a receita de algum prato ou um poema sobre algum tema.

Uma atualização recente no GPT-4o promete impedir os ataques de injeção de prompt nas IAs e bots (sejam os do bem ou os criados por fazendas de trolls). A expressão também virou uma espécie de xingamento sempre que um usuário considera que o outro está apenas replicando alguma propaganda ou repetindo argumentos comuns.

Com informações: The Register e The Verge

Leia | Prompt em IA Generativa: o que é, para que serve e como usar