Cloudflare lança bloqueio contra robôs que leem sites para treinar IA
Ferramenta AI Audit identifica robôs usados por empresas de IA. Cloudflare quer criar marketplace para que sites coloquem preço em seu conteúdo.
Ferramenta AI Audit identifica robôs usados por empresas de IA. Cloudflare quer criar marketplace para que sites coloquem preço em seu conteúdo.
A Cloudflare apresentou um novo serviço para sites: com um clique, administradores poderão bloquear robôs que raspam dados e usam as informações coletadas no treinamento de inteligência artificial.
A barreira faz parte de um conjunto de ferramentas direcionados à proteção contra IA, que recebeu o nome de AI Audit. Segundo a empresa, também será possível identificar quais são os robôs que mais raspam conteúdo de um site.
As ferramentas eram esperadas desde julho, quando a Cloudflare fez o primeiro anúncio sobre o assunto. Os planos da empresa não param por aí. Ela revelou que pretende criar um marketplace voltado a este tipo de tecnologia.
Na plataforma, sites poderão colocar um preço em seu conteúdo e negociar com empresas de tecnologia que queiram usar estes dados, liberando os bots que fazem a coleta das informações.
As ferramentas de bloqueio são o mais novo capítulo na conturbada relação entre empresas de conteúdo, como sites jornalísticos, e desenvolvedoras de modelos de linguagem em larga escala (LLMs, na sigla em inglês).
Em junho, a Perplexity AI foi acusada por Forbes e Condé Nast (dona de Wired, Ars Technica e outras publicações) de ignorar as configurações do arquivo robots.txt e escanear os sites sem autorização. Segundo as empresas, reportagens exclusivas estavam sendo plagiadas pelo chatbot da startup, sem que os devidos créditos fossem dados.
O arquivo robots.txt indica se um site quer ou não ser lido por bots. Ele não representa uma barreira técnica e não é capaz de bloquear um robô, servindo apenas uma recomendação. Até pouco tempo atrás, este pedido costumava ser atendido pelas companhias de tecnologia.
A nova ferramenta da Cloudflare vai tentar solucionar este problema. “Muitos sites permitiram que estes crawlers de IA escaneassem seu conteúdo porque, em grande parte, eles pareciam ‘bons’ robôs — mas o resultado foi menos audiência, já que o conteúdo foi reembalado e usado nas respostas escritas por IA”, comenta a empresa em seu blog.
Com informações: Cloudflare, TechCrunch, Ars Technica