CEO da Microsoft AI diz que conteúdo online é um “freeware” para treinar IA

Para Mustafa Suleyman, o conteúdo da web pode ser usado livremente para treinar IA se o criador não manifestar o contrário

Emerson Alecrim

Para Mustafa Suleyman, CEO da Microsoft AI e cofundador da DeepMind, o conteúdo disponível na web é um “freeware”. Isso significa que, no entendimento do executivo, é aceitável o uso de publicações online para treinamento de sistemas de IA generativa.

A discussão tem relação com o fato de que serviços como ChatGPT e Google Gemini não geram resultados por si só. Todas as respostas apresentadas por esses serviços têm como base grandes volumes de dados que servem de treinamento para os modelos de linguagem desses sistemas. E esses volumes vêm predominantemente da web.

Conteúdo na web como “freeware”

Em entrevista recente com Andrew Ross Sorkin, da CNBC, Mustafa Suleyman, foi questionado se “companhias de IA efetivamente roubaram a propriedade intelectual do mundo”. Foi quando o executivo citou o termo “freeware” como justificativa:

Penso que, a respeito do conteúdo que já está na web aberta, o contrato social desse conteúdo desde os anos 1990 tem sido o de uso justo. Qualquer um pode copiar, recriar com isso, reproduzir com isso. Tem sido um “freeware”, se você preferir, esse tem sido o entendimento.

Mustafa Suleyman, líder de IA da Microsoft

Para o executivo, exceções podem existir somente quando os criadores deixam claro as restrições de uso do conteúdo.

A preocupação de criadores e veículos de mídia reside no fato de que o uso de seus conteúdos para treinamentos de IA vem sendo realizado sem contrapartidas.

De modo geral, esses serviços usam publicações online como uma espécie de base de conhecimento, apresentam o resultado “mastigado” para o usuário, e deixam as páginas que serviram de base para as respostas aos usuários com pouco ou nenhum acesso.

Ao usar o termo “freeware” (originalmente criado para designar softwares gratuitos), Suleyman sugere que não é errado que serviços de IA façam isso porque, quando uma pessoa ou organização disponibiliza um conteúdo na web, aceita o uso desse material de modo livre.

Processos e acordos

Sabemos que não é assim. Embora as leis variem de acordo com o país, o conteúdo disponibilizado na web gratuitamente é protegido por direitos autorais.

No entanto, os limites do que a IA pode ou não fazer com esse conteúdo ainda está em discussão. Em outras palavras, ainda há muita incerteza jurídica sobre o assunto.

Por ora, grandes organizações de mídia movem processos judiciais contra companhias como OpenAI e a própria Microsoft na tentativa de obter alguma compensação pelo uso de seu conteúdo por sistemas de IA. Um exemplo vem do The New York Times, que abriu uma ação contra a OpenAI no final de 2023.

Também há organizações preferindo fechar acordos. É o caso do Times, que estabeleceu uma parceria com a OpenAI com o qual a empresa terá acesso a todo o conteúdo do veículo publicado nos últimos 101 anos.

OpenAI
OpenAI (imagem: Vitor Pádua/Tecnoblog)

Só grandes veículos sobreviverão?

Esses processos e acordos também são cercados de polêmicas, pois indicam que somente grandes organizações de mídia conseguirão obter contrapartidas de empresas de IA generativa sobre o uso de seu conteúdo.

Já pequenos criadores e publicações independentes podem deixar de seguir com seu trabalho diante de um cenário em que a IA generativa domina a propagação de informação ao mesmo tempo em que usa conteúdo alheio sem oferecer compensações.

Empresas como a Adobe vem pagando produtores de conteúdo para ter dados para treinar modelos de IA, mas até essa abordagem tem sido vista com ressalvas: será que os valores pagos são justos?

Definitivamente, essa é uma novela que ainda vai ser render muitos capítulos.

Com informações: The Register, The Verge

Relacionados

Escrito por

Emerson Alecrim

Emerson Alecrim

Repórter

Emerson Alecrim cobre tecnologia desde 2001 e entrou para o Tecnoblog em 2013, se especializando na cobertura de temas como hardware, sistemas operacionais e negócios. Formado em ciência da computação, seguiu carreira em comunicação, sempre mantendo a tecnologia como base. Em 2022, foi reconhecido no Prêmio ESET de Segurança em Informação. Em 2023, foi reconhecido no Prêmio Especialistas, em eletroeletrônicos. Participa do Tecnocast, já passou pelo TechTudo e mantém o site Infowester.