Cloudflare lança bloqueio contra robôs que leem sites para treinar IA

Ferramenta AI Audit identifica robôs usados por empresas de IA. Cloudflare quer criar marketplace para que sites coloquem preço em seu conteúdo.

Giovanni Santa Rosa
• Atualizado há 3 semanas
Inteligência artificial
Cloudflare diz que robôs de IA podem prejudicar audiência dos sites (Imagem: Vitor Pádua / Tecnoblog)

A Cloudflare apresentou um novo serviço para sites: com um clique, administradores poderão bloquear robôs que raspam dados e usam as informações coletadas no treinamento de inteligência artificial.

A barreira faz parte de um conjunto de ferramentas direcionados à proteção contra IA, que recebeu o nome de AI Audit. Segundo a empresa, também será possível identificar quais são os robôs que mais raspam conteúdo de um site.

Painel da Cloudflare com lista de robôs de IA que acessaram site, quantidade de acessos e páginas acessadas
AI Audit aponta quais robôs mais visitaram o site (Imagem: Divulgação / Cloudflare)

As ferramentas eram esperadas desde julho, quando a Cloudflare fez o primeiro anúncio sobre o assunto. Os planos da empresa não param por aí. Ela revelou que pretende criar um marketplace voltado a este tipo de tecnologia.

Na plataforma, sites poderão colocar um preço em seu conteúdo e negociar com empresas de tecnologia que queiram usar estes dados, liberando os bots que fazem a coleta das informações.

Sites jornalísticos dizem que robôs desrespeitam instruções

As ferramentas de bloqueio são o mais novo capítulo na conturbada relação entre empresas de conteúdo, como sites jornalísticos, e desenvolvedoras de modelos de linguagem em larga escala (LLMs, na sigla em inglês).

Em junho, a Perplexity AI foi acusada por Forbes e Condé Nast (dona de Wired, Ars Technica e outras publicações) de ignorar as configurações do arquivo robots.txt e escanear os sites sem autorização. Segundo as empresas, reportagens exclusivas estavam sendo plagiadas pelo chatbot da startup, sem que os devidos créditos fossem dados.

O arquivo robots.txt indica se um site quer ou não ser lido por bots. Ele não representa uma barreira técnica e não é capaz de bloquear um robô, servindo apenas uma recomendação. Até pouco tempo atrás, este pedido costumava ser atendido pelas companhias de tecnologia.

A nova ferramenta da Cloudflare vai tentar solucionar este problema. “Muitos sites permitiram que estes crawlers de IA escaneassem seu conteúdo porque, em grande parte, eles pareciam ‘bons’ robôs — mas o resultado foi menos audiência, já que o conteúdo foi reembalado e usado nas respostas escritas por IA”, comenta a empresa em seu blog.

Com informações: Cloudflare, TechCrunch, Ars Technica

Relacionados

Escrito por

Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.