Cloudflare vai bloquear robôs que coletam conteúdo de sites para treinar IA

Jornais e revistas acusam empresas de IA de desrespeitar instruções contra robôs. Solução da Cloudflare impede o acesso destas ferramentas.

Por Giovanni Santa Rosa

há 5 meses

A empresa de serviços de internet Cloudflare lançou uma ferramenta para bloquear robôs que coletam textos e imagens de sites. Estas ferramentas são usadas treinar modelos de inteligência artificial. Nas últimas semanas, empresas jornalísticas acusaram startups de IA de não respeitar o robots.txt, arquivo com instruções que deveriam impedir o acesso de crawlers e scrapers.

A ferramenta é gratuita e bloqueia automaticamente robôs de IA, usando a análise do tráfego no site. A Cloudflare diz que este tipo de ação deixa “impressões digitais”. Graças a elas, é possível identificar e bloquear os robôs, mesmo se eles tentarem simular o comportamento de um visitante humano.

Ilustração da Cloudflare com dois robôs de aspirador de pó e um escudo entre eles — Cloudflare promete bloquear até mesmo robôs que se passam por humanos (Imagem: Divulgação / Cloudflare)

“Os consumidores não querem bots de IA visitando seus sites, especialmente aqueles que agem de maneira desonesta”, diz a empresa. “Suspeitamos que algumas empresas de IA estão tentando burlar as regras para acessar conteúdo e vão tentar se adaptar para escapar da detecção de robôs.”

Empresas de IA estão usando conteúdo sem autorização

Atualmente, uma das opções para bloquear os scrapers e crawlers é colocar instruções em um arquivo robots.txt. Este método, porém, apenas sinaliza aos robôs que aquele site não deseja ser acessado, mas não impede a ação de ferramentas deste tipo.

Este problema ganhou evidência nas últimas semanas. Forbes e Wired acusaram a Perplexity AI de não respeitar a sinalização contra robôs que foi colocada seus sites. O chatbot da startup reproduziu quase na íntegra reportagens exclusivas, sem dar os devidos créditos.

O problema pode ser ainda mais amplo. Segundo a empresa de licenciamento de conteúdo TollBit, muitos agentes de IA estão ignorando o padrão robots.txt. Atualmente, entre os 1.000 sites mais visitados da web, 26% bloqueiam os robôs da OpenAI.

Sede do New York TImes (Imagem: Joe ShlabotnikSeguir/Flickr) — The New York Times briga com a OpenAI na justiça dos EUA (Imagem: Joe ShlabotnikSeguir / Flickr)

Antes disso, o jornal The New York Times entrou com um processo contra a OpenAI, acusando a desenvolvedora do ChatGPT de não respeitar direitos autorais ao usar matérias da publicação no treinamento dos modelos de IA.

Enquanto o veredito não sai, a OpenAI tem fechado acordos de licenciamento de conteúdo com várias empresas jornalísticas, como Axel Springer, Vox Media e Associated Press.

Mesmo assim, vai ser difícil escapar da IA. A ferramenta AI Overviews, do Google, que cria respostas automáticas e as coloca no topo dos resultados da busca, não pode ser bloqueada de maneira independente. A única maneira é bloquear totalmente a indexação do Google, o que é um problema, já que o buscador é a principal fonte de tráfego de muitos sites.

Com informações: Cloudflare, TechCrunch

Leia | Como usar a máquina do tempo do Internet Archive [Wayback Machine]

Comentários da Comunidade

10 comentários

Participe da discussão

Sérgio 5 meses atrás

“A IA é o futuro…”

Por recomendação de saúde, não posso falar outra coisa que costumo falar sobre a IA.

anon54126192 5 meses atrás

IA já é usada por décadas e vai continuar sendo usada, só está na moda agora, e já está passando.

Já teria passado se o mercado não estivesse em fase de não inovação

Se está falando de Machine Learning, são conceitos totalmente diferentes. Se está falando de IA em games, aí é algo que está contido dentro daquele “universo” apenas, não é algo que vai ter utilidade fora dele. Aliás, falando em games, F.E.A.R. tinha uma IA absurda. E olha que é um game antigo. GTA também é um que a IA brilha.

Então, já tinha, agora tá na moda e qualquer coisa é IA, mesmo não sendo

Por isso que só se fala isso, ainda mais aqui que a moda é atrasada em relação ao EUA, Europa, Japão e Coreia do Sul.