Amazon, CNN, New York Times e mais sites bloqueiam robô do ChatGPT

Entre os 100 sites mais acessados da internet, pelo menos 15 já bloqueiam o GPTBot, que coleta textos para treinar o ChatGPT

Por Giovanni Santa Rosa

há 11 meses

O ChatGPT é capaz de responder inúmeras perguntas com uma precisão razoável, já que foi treinado com grandes quantidades de texto, como livros, artigos e também sites. Estes últimos, no entanto, parecem bem preocupados. Levantamentos mostram que mais de 15 entre os 100 sites mais acessados bloquearam o GPTBot, robô da OpenAI responsável por coletar conteúdo. Nessa lista, estão Amazon, New York Times, CNN e outros.

Os dados são de uma análise da Originality.ai, empresa especializada em conferir se um conteúdo foi gerado por inteligência artificial ou plagiado.

Entre os 100 sites mais acessados da internet, pelo menos 15 já bloquearam o robô. Entre os 1000 mais acessados, mais de 70 tomaram esta mesma medida.

Entre os mais de 1000 sites que estão bloqueando o GPTBot, estão nomes famosos, como:

Amazon
The New York Times
CNN
Wikihow
Shutterstock
Quora
Bloomberg
Scribd
Reuters
Ikea
Airbnb
Coursera

ChatGPT e outras IAs são acusadas de violar copyright

Bloquear o robô da OpenAI é uma forma de impedir o uso de conteúdo protegido por direitos autorais.

“Propriedade intelectual é a força vital dos nossos negócios, e precisamos proteger os direitos autorais do nosso conteúdo”, declarou uma porta-voz da agência de notícias Reuters à reportagem do jornal The Guardian.

Já o New York Times atualizou os termos de serviço para incluir um item que proíbe a raspagem do conteúdo para treinamento e desenvolvimento de inteligências artificiais.

Este é um tema em debate desde que o ChatGPT e outras ferramentas de inteligência artificial generativa foram lançadas.

O banco de imagens Getty Images, por exemplo, processou os criadores do Stable Diffusion por treinar a IA com fotografias protegidas por copyright. Algumas das criações da ferramenta mostram até mesmo a marca d’água da Getty.

Escritores tomaram caminho parecido e processaram a OpenAI, enquanto uma ação coletiva foi movida contra Microsoft, GitHub e OpenAI por desrespeitar licenças de atribuição de códigos abertos usados no treinamento das ferramentas.

Sites também bloqueiam crawler de arquivo público

O GPTBot é o “crawler” da OpenAI. Este nome é dado a robôs que “rastejam” pela web indexando e coletando informações. Google e Bing, por exemplo, têm os seus, que catalogam as páginas da internet para mostrar resultados de buscas.

A ideia da OpenAI é coletar informações para treinar o modelo de linguagem em larga escala que faz o ChatGPT funcionar.

O GPTBot foi anunciado no começo de agosto de 2023. A OpenAI também disponibilizou informações sobre como os sites poderiam impedir que ele coletasse conteúdo: basta remover a permissão no arquivo robots.txt ou bloquear o IP.

Alguns (mas não todos) sites da lista também bloquearam o CCBot, crawler da organização sem fins lucrativos Common Crawl, cujo objetivo é criar arquivos públicos, para qualquer um acessar.

Parte dos dados usados no treinamento do ChatGPT — e também dos modelos do Google e de outras empresas — vem da Common Crawl.

Com informações: Business Insider, The Guardian, Search Engine Land