CEO da Microsoft AI diz que conteúdo online é um “freeware” para treinar IA
Para Mustafa Suleyman, o conteúdo da web pode ser usado livremente para treinar IA se o criador não manifestar o contrário
Para Mustafa Suleyman, o conteúdo da web pode ser usado livremente para treinar IA se o criador não manifestar o contrário
Para Mustafa Suleyman, CEO da Microsoft AI e cofundador da DeepMind, o conteúdo disponível na web é um “freeware”. Isso significa que, no entendimento do executivo, é aceitável o uso de publicações online para treinamento de sistemas de IA generativa.
A discussão tem relação com o fato de que serviços como ChatGPT e Google Gemini não geram resultados por si só. Todas as respostas apresentadas por esses serviços têm como base grandes volumes de dados que servem de treinamento para os modelos de linguagem desses sistemas. E esses volumes vêm predominantemente da web.
Em entrevista recente com Andrew Ross Sorkin, da CNBC, Mustafa Suleyman, foi questionado se “companhias de IA efetivamente roubaram a propriedade intelectual do mundo”. Foi quando o executivo citou o termo “freeware” como justificativa:
Penso que, a respeito do conteúdo que já está na web aberta, o contrato social desse conteúdo desde os anos 1990 tem sido o de uso justo. Qualquer um pode copiar, recriar com isso, reproduzir com isso. Tem sido um “freeware”, se você preferir, esse tem sido o entendimento.
Mustafa Suleyman, líder de IA da Microsoft
Para o executivo, exceções podem existir somente quando os criadores deixam claro as restrições de uso do conteúdo.
A preocupação de criadores e veículos de mídia reside no fato de que o uso de seus conteúdos para treinamentos de IA vem sendo realizado sem contrapartidas.
De modo geral, esses serviços usam publicações online como uma espécie de base de conhecimento, apresentam o resultado “mastigado” para o usuário, e deixam as páginas que serviram de base para as respostas aos usuários com pouco ou nenhum acesso.
Ao usar o termo “freeware” (originalmente criado para designar softwares gratuitos), Suleyman sugere que não é errado que serviços de IA façam isso porque, quando uma pessoa ou organização disponibiliza um conteúdo na web, aceita o uso desse material de modo livre.
Sabemos que não é assim. Embora as leis variem de acordo com o país, o conteúdo disponibilizado na web gratuitamente é protegido por direitos autorais.
No entanto, os limites do que a IA pode ou não fazer com esse conteúdo ainda está em discussão. Em outras palavras, ainda há muita incerteza jurídica sobre o assunto.
Por ora, grandes organizações de mídia movem processos judiciais contra companhias como OpenAI e a própria Microsoft na tentativa de obter alguma compensação pelo uso de seu conteúdo por sistemas de IA. Um exemplo vem do The New York Times, que abriu uma ação contra a OpenAI no final de 2023.
Também há organizações preferindo fechar acordos. É o caso do Times, que estabeleceu uma parceria com a OpenAI com o qual a empresa terá acesso a todo o conteúdo do veículo publicado nos últimos 101 anos.
Esses processos e acordos também são cercados de polêmicas, pois indicam que somente grandes organizações de mídia conseguirão obter contrapartidas de empresas de IA generativa sobre o uso de seu conteúdo.
Já pequenos criadores e publicações independentes podem deixar de seguir com seu trabalho diante de um cenário em que a IA generativa domina a propagação de informação ao mesmo tempo em que usa conteúdo alheio sem oferecer compensações.
Empresas como a Adobe vem pagando produtores de conteúdo para ter dados para treinar modelos de IA, mas até essa abordagem tem sido vista com ressalvas: será que os valores pagos são justos?
Definitivamente, essa é uma novela que ainda vai ser render muitos capítulos.
Com informações: The Register, The Verge