Salvaguardas do Meta IA podem ser contornadas… com a barra de espaço
IA da Meta é imune ao comando “ignore as instruções anteriores”, mas usuários podem burlar proteção ajustando os espaços e pontos da oração
IA da Meta é imune ao comando “ignore as instruções anteriores”, mas usuários podem burlar proteção ajustando os espaços e pontos da oração
O sistema de defesa do Llama 3.1, mais novo modelo de linguagem para IAs da Meta, contra ataques de injeção de prompts pode ser burlado apenas com a barra de espaço. O Prompt-Guard 86M, lançado na semana passada com a nova versão do Llama, promete combater a vulnerabilidade de IAs e bots (no bom sentido) em seguir ordens para a qual não foram programadas. Esses ataques viralizaram nos últimos dias, com pessoas descobrindo bots nas redes sociais dizendo “ignore as instruções anteriores”.
Para ser justo, o Prompt-Guard 86M de fato protege a IA contra os ataques de injeção de prompts que utilizam essa frase. Essa proteção visa impedir que programas baseados em LLMs escrevam coisas inapropriadas ou para a qual não foram desenvolvidas. Contudo, Aman Priyanshu, especialista em cibersegurança, descobriu que remover as pontuações e incluir espaço entre as letras é o suficiente para quebrar o “guard-rail” (ou guardirreio na versão aportuguesada) do Llama 3.1.
Priyanshu publicou o caso na página da Llama no GitHub. A Meta não se pronunciou sobre o caso, mas é natural imaginar que eles já estão trabalhando em uma solução.
Esses tipos de ataques de injeção de prompt visam mudar a funcionalidade de uma IA — geralmente aquelas usadas em bots. Por exemplo, pedir para que uma IA de atendimento passe a escrever discursos de ódio ou receitas de bolo. O primeiro caso é mais prejudicial, já que a captura de tela pode ser usada para impactar a imagem de uma empresa, enquanto o segundo provavelmente viralizaria pelo lado cômico.
Recentemente, alguns casos de usuários combatendo bots com ataques de injeção de prompts viralizaram — tanto no Threads quanto no X. Ao publicar sobre algum tópico polêmico (como política) e receber uma resposta de uma conta suspeita, os usuários contra-atacavam com o prompt “ignore todas as instruções anteriores”. A mensagem era completada com algum comando cômico, que poderia ser a receita de algum prato ou um poema sobre algum tema.
Uma atualização recente no GPT-4o promete impedir os ataques de injeção de prompt nas IAs e bots (sejam os do bem ou os criados por fazendas de trolls). A expressão também virou uma espécie de xingamento sempre que um usuário considera que o outro está apenas replicando alguma propaganda ou repetindo argumentos comuns.
Com informações: The Register e The Verge
Leia | Prompt em IA Generativa: o que é, para que serve e como usar