OpenAI e outras empresas podem ter que revelar uso de material com copyright

Legislação proposta pela União Europeia exige que companhias contem de onde tiraram conteúdos usados para treinar seus modelos de inteligência artificial

Por Giovanni Santa Rosa

há 1 ano e 3 meses • Atualizado há 1 ano e 2 meses

Bandeiras da União Europeia (Imagem: Thijs ter Haar/Wikimedia Commons)

A inteligência artificial é um assunto em alta, e seus aspectos positivos e negativos ainda estão sob avaliação. A União Europeia, por exemplo, agora está interessada na questão dos direitos autorais. O bloco discute obrigar as empresas a revelar se materiais protegidos por copyright foram usados para treinar robôs como o ChatGPT.

Esta exigência foi adicionada ao Regulamento da Inteligência Artificial nas duas últimas semanas, disse uma fonte interna à Reuters. Alguns membros do Parlamento Europeu queriam proibir o uso de material com copyright, mas uma proposta mais branda, exigindo apenas transparência, venceu as discussões.

Dessa forma, empresas que desenvolvem ferramentas geradoras de conteúdo, como o ChatGPT, o Dall-E, o Midjourney e muitas outras, precisarão revelar qualquer uso de material protegido por direitos autorais para treinar seus sistemas.

O Regulamento da Inteligência Artificial (ou AI Act, em inglês) vem sendo discutido há dois anos, antes mesmo do lançamento do ChatGPT pela OpenAI e de todo o destaque sobre o tema que veio desde então.

O Parlamento Europeu já tinha um rascunho da lei, e seus membros concordaram em avançar com a matéria para a fase de discussões.

As inteligências artificiais generativas dependem de treinamento com grandes quantidades de dados. Assim, elas entendem diversas formas de escrever, acumulam informações, aprendem como desenhar em vários estilos, e assim por diante.

Processos contra empresas podem aumentar

Empresas como a OpenAI se recusam a abrir detalhes sobre os dados usados para treinar seu software. Caso a legislação europeia seja aprovada, elas precisarão revelar de onde foi retirado o conteúdo.

Isso pode ter consequências negativas para as companhias: os processos por violação de direitos autorais devem se multiplicar.

Imagem gerada pelo Stable Diffusion (Imagem: Reprodução/The Verge) — Imagem gerada pelo Stable Diffusion tem marca d’água da Getty Images (Imagem: Reprodução/The Verge)

A questão do copyright já é uma realidade no cenário da inteligência artificial, principalmente entre artistas e fotógrafos. A empresa de bancos de imagens Getty Images está processando a Stability AI, por exemplo.

O Stable Diffusion, modelo desenvolvido pela Stability AI, foi “pego” criando imagens com a marca d’água da Getty. Isso indica que as fotos da empresa foram usadas indevidamente para treinar a inteligência artificial.

Além da briga entre as duas empresas, três artistas moveram uma ação coletiva contra a Stability AI, a Midjourney e a DeviantArt.

Eles alegam que as desenvolvedoras violaram os direitos de milhões de artistas ao usar 5 bilhões de imagens raspadas da internet sem o consentimento dos artistas.

Deixando as imagens um pouco de lado, a Microsoft e sua subsidiária GitHub foram acionadas na Justiça dos EUA por causa da ferramenta Copilot.

O Copilot foi treinado usando códigos abertos. A licença desses códigos, porém, exige que o autor esteja listado em trabalhos derivados.

Mesmo assim, o Copilot cria longos scripts a partir de trabalhos protegidos por essas licenças sem dar nenhum crédito, o que seria uma violação da lei de direitos autorais.

Com informações: Reuters, The Verge

Comentários da Comunidade

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

16 comentários

Participe da discussão

Os mais notáveis

Comentários com a maior pontuação

Mister Quinzel 1 ano e 2 meses atrás

Estamos vivendo uma nova geração da Kibagem qualificada de conteúdo.

Desenvolvimentista 1 ano e 2 meses atrás

Contar e referenciar as origens é o mínimo neh!

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 1 ano e 2 meses atrás

Bah… imagina tu ser obrigado à ver uma lista de material toda vez que a AI gera uma imagem… uma lista que 99.99% das pessoas está cagando e andando se vai ver ou não…

Quem vai conferir se a lista é real ou não? Porque se alguém tá pedindo, espero que alguém confira… porque se não é só mais uma presepada burrocrática que só astravanqueia o progresso…

Desenvolvimentista 1 ano e 2 meses atrás

O mesmo tipo de gente que faz isso para vídeos e poder cobrar copy…
Tanto de trechos de músicas quanto de vídeos alheios…

Se você tem lucros com conteúdo alheio você precisa pagar ou referenciar os autores

123 1 ano e 2 meses atrás

para quem cria, a verificação de hash por SHA já resolve isso, até mesmo o MD5, alguém cria (certeza que vão criar) um serviço a partir da lista e informar que o material dele foi usado e cobrar royalties

dinheiro, é um bom incentivo

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 1 ano e 2 meses atrás

Pois é… mas eu queria saber como eles vão definir qual imagem foi gerada com o que e qual a porcentagem que a pessoa iria receber…

Desenvolvimentista 1 ano e 2 meses atrás

Você esta só pensando em imagens. Tem muito mais coisas!
Quem sabe nem façam com a coisa gerada, mas com o conteúdo de treinamento!

Para treinar usamos isso: x, y, t…
Não importa se a imagem M, que foi gerada agora tem y e t.
O que importa que usaram x,y e t para gerar em algum momento.

Ou seja, paga antes!

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 1 ano e 2 meses atrás

Sim, é o que eu mais uso. hahaha

Se for pra pagar antes… digamos que se precise de 100000 imagens. Quanto seria o preço justo pra pagar? mil reais? dez mil? cem mil? Alguns desses valores inviabilizariam para empresas menores e pessoas fazerem isso.

Desenvolvimentista 1 ano e 2 meses atrás

Se a imagem é minha, cobro o quanto quiser!

Então a empresa de IA pode retirar ela do sistema!

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 1 ano e 2 meses atrás

Yep, tu pode agir dessa forma. Mas como tu prova que ainda está no sistema se eles simplesmente tirarem a imagem da lista? Pelo que lembro, esses checkpoints não guardam a imagem completa ou partes, mas só padrões semelhantes de diversas imagens que podem ter a tua inclusa ou não.

Desenvolvimentista 1 ano e 2 meses atrás

uso outra IA pra fazer isso! kkkkk

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 1 ano e 2 meses atrás

Então… ai a pessoa pode questionar como tua ai chegou a aquele nivel e isso se enrola por 20 anos… se tornando uma batalha de pirro. hahaha

Desenvolvimentista 1 ano e 2 meses atrás

é o número de batalhas que importa.
Serão tantas que a empresa sozinha não vai conseguir arcar

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 1 ano e 2 meses atrás

Provavelmente a empresa conseguirá uma decisão favorável no começo e usará ela para influenciar as outras…

Exibir mais comentários

Relacionados

Autor(a)

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.

Apple vence Epic Games no tribunal, mas App Store poderá ter mudança Projeto de lei brasileiro quer regular a inteligência artificial