OpenAI e outras empresas podem ter que revelar uso de material com copyright

Legislação proposta pela União Europeia exige que companhias contem de onde tiraram conteúdos usados para treinar seus modelos de inteligência artificial

Giovanni Santa Rosa

A inteligência artificial é um assunto em alta, e seus aspectos positivos e negativos ainda estão sob avaliação. A União Europeia, por exemplo, agora está interessada na questão dos direitos autorais. O bloco discute obrigar as empresas a revelar se materiais protegidos por copyright foram usados para treinar robôs como o ChatGPT.

Esta exigência foi adicionada ao Regulamento da Inteligência Artificial nas duas últimas semanas, disse uma fonte interna à Reuters. Alguns membros do Parlamento Europeu queriam proibir o uso de material com copyright, mas uma proposta mais branda, exigindo apenas transparência, venceu as discussões.

Dessa forma, empresas que desenvolvem ferramentas geradoras de conteúdo, como o ChatGPT, o Dall-E, o Midjourney e muitas outras, precisarão revelar qualquer uso de material protegido por direitos autorais para treinar seus sistemas.

O Regulamento da Inteligência Artificial (ou AI Act, em inglês) vem sendo discutido há dois anos, antes mesmo do lançamento do ChatGPT pela OpenAI e de todo o destaque sobre o tema que veio desde então.

O Parlamento Europeu já tinha um rascunho da lei, e seus membros concordaram em avançar com a matéria para a fase de discussões.

As inteligências artificiais generativas dependem de treinamento com grandes quantidades de dados. Assim, elas entendem diversas formas de escrever, acumulam informações, aprendem como desenhar em vários estilos, e assim por diante.

Processos contra empresas podem aumentar

Empresas como a OpenAI se recusam a abrir detalhes sobre os dados usados para treinar seu software. Caso a legislação europeia seja aprovada, elas precisarão revelar de onde foi retirado o conteúdo.

Isso pode ter consequências negativas para as companhias: os processos por violação de direitos autorais devem se multiplicar.

Imagem gerada pelo Stable Diffusion (Imagem: Reprodução/The Verge)
Imagem gerada pelo Stable Diffusion tem marca d’água da Getty Images (Imagem: Reprodução/The Verge)

A questão do copyright já é uma realidade no cenário da inteligência artificial, principalmente entre artistas e fotógrafos. A empresa de bancos de imagens Getty Images está processando a Stability AI, por exemplo.

O Stable Diffusion, modelo desenvolvido pela Stability AI, foi “pego” criando imagens com a marca d’água da Getty. Isso indica que as fotos da empresa foram usadas indevidamente para treinar a inteligência artificial.

Além da briga entre as duas empresas, três artistas moveram uma ação coletiva contra a Stability AI, a Midjourney e a DeviantArt.

Eles alegam que as desenvolvedoras violaram os direitos de milhões de artistas ao usar 5 bilhões de imagens raspadas da internet sem o consentimento dos artistas.

Deixando as imagens um pouco de lado, a Microsoft e sua subsidiária GitHub foram acionadas na Justiça dos EUA por causa da ferramenta Copilot.

O Copilot foi treinado usando códigos abertos. A licença desses códigos, porém, exige que o autor esteja listado em trabalhos derivados.

Mesmo assim, o Copilot cria longos scripts a partir de trabalhos protegidos por essas licenças sem dar nenhum crédito, o que seria uma violação da lei de direitos autorais.

Com informações: Reuters, The Verge

Leia | O que é copyright?

Relacionados

Escrito por

Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.