Amazon, CNN, New York Times e mais sites bloqueiam robô do ChatGPT

Entre os 100 sites mais acessados da internet, pelo menos 15 já bloqueiam o GPTBot, que coleta textos para treinar o ChatGPT

Giovanni Santa Rosa
Por
ChatGPT
ChatGPT, da OpenAI (Imagem: Vitor Pádua / Tecnoblog)

O ChatGPT é capaz de responder inúmeras perguntas com uma precisão razoável, já que foi treinado com grandes quantidades de texto, como livros, artigos e também sites. Estes últimos, no entanto, parecem bem preocupados. Levantamentos mostram que mais de 15 entre os 100 sites mais acessados bloquearam o GPTBot, robô da OpenAI responsável por coletar conteúdo. Nessa lista, estão Amazon, New York Times, CNN e outros.

Os dados são de uma análise da Originality.ai, empresa especializada em conferir se um conteúdo foi gerado por inteligência artificial ou plagiado.

Entre os 100 sites mais acessados da internet, pelo menos 15 já bloquearam o robô. Entre os 1000 mais acessados, mais de 70 tomaram esta mesma medida.

Entre os mais de 1000 sites que estão bloqueando o GPTBot, estão nomes famosos, como:

  • Amazon
  • The New York Times
  • CNN
  • Wikihow
  • Shutterstock
  • Quora
  • Bloomberg
  • Scribd
  • Reuters
  • Ikea
  • Airbnb
  • Coursera

Bloquear o robô da OpenAI é uma forma de impedir o uso de conteúdo protegido por direitos autorais.

“Propriedade intelectual é a força vital dos nossos negócios, e precisamos proteger os direitos autorais do nosso conteúdo”, declarou uma porta-voz da agência de notícias Reuters à reportagem do jornal The Guardian.

Já o New York Times atualizou os termos de serviço para incluir um item que proíbe a raspagem do conteúdo para treinamento e desenvolvimento de inteligências artificiais.

Este é um tema em debate desde que o ChatGPT e outras ferramentas de inteligência artificial generativa foram lançadas.

O banco de imagens Getty Images, por exemplo, processou os criadores do Stable Diffusion por treinar a IA com fotografias protegidas por copyright. Algumas das criações da ferramenta mostram até mesmo a marca d’água da Getty.

Escritores tomaram caminho parecido e processaram a OpenAI, enquanto uma ação coletiva foi movida contra Microsoft, GitHub e OpenAI por desrespeitar licenças de atribuição de códigos abertos usados no treinamento das ferramentas.

Sites também bloqueiam crawler de arquivo público

O GPTBot é o “crawler” da OpenAI. Este nome é dado a robôs que “rastejam” pela web indexando e coletando informações. Google e Bing, por exemplo, têm os seus, que catalogam as páginas da internet para mostrar resultados de buscas.

A ideia da OpenAI é coletar informações para treinar o modelo de linguagem em larga escala que faz o ChatGPT funcionar.

O GPTBot foi anunciado no começo de agosto de 2023. A OpenAI também disponibilizou informações sobre como os sites poderiam impedir que ele coletasse conteúdo: basta remover a permissão no arquivo robots.txt ou bloquear o IP.

Alguns (mas não todos) sites da lista também bloquearam o CCBot, crawler da organização sem fins lucrativos Common Crawl, cujo objetivo é criar arquivos públicos, para qualquer um acessar.

Parte dos dados usados no treinamento do ChatGPT — e também dos modelos do Google e de outras empresas — vem da Common Crawl.

Com informações: Business Insider, The Guardian, Search Engine Land

Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.

Relacionados

Relacionados