Fotos e nomes de crianças brasileiras estão em dataset usado para treinar IA

Organização alemã admite que 170 imagens de crianças brasileiras, com detalhes que permitem sua identificação, fazem parte do conjunto de dados Laion-5B

Por Giovanni Santa Rosa

há 7 meses

A organização não governamental Human Rights Watch afirma ter encontrado fotos de crianças brasileiras na base de dados Laion-5B, usada para treinar modelos de inteligência artificial de startups. Algumas das imagens contêm informações sobre as crianças. A associação sem fins lucrativos Laion, responsável pelo dataset, confirmou a existência do material e prometeu apagá-lo.

Segundo a HRW, a presença destas imagens representa um risco de privacidade, já que há relatos de que é possível fazer com que modelos de inteligência artificial reproduzam por inteiro os dados usados no treinamento. Além disso, fotos destas crianças podem ser usadas para gerar imagens pornográficas. Anteriormente, materiais de abuso infantil e registros médicos foram encontrados no mesmo dataset.

Inteligência artificial — Modelos de inteligência artificial são treinados com dados coletados da internet (Imagem: Vitor Pádua / Tecnoblog)

Laion-5B tem fotos, nomes e locais de nascimento de crianças

A HRW encontrou 170 fotos de crianças de ao menos dez estados: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo.

Uma das fotos retrata uma menina de dois anos tocando os dedos da irmã recém-nascida. A imagem e as informações do arquivo revelam os nomes das crianças, o hospital onde a foto foi tirada e a data de nascimento. Em outros casos, a legenda contém a URL de onde a foto está salva.

Há também imagens de recém-nascidos nas mãos de médicos, crianças em aniversários, estudantes apresentando trabalhos em escolas e adolescentes em festas de carnaval.

Lego nas mãos de uma criança — Laion-5B tem fotos identificáveis e com informações de local de nascimento de crianças brasileiras (Imagem: Kelly Sikkema / Unsplash)

Muitas dessas imagens não podem mais ser encontradas em buscas online ou em ferramentas de pesquisa reversa. Elas foram postadas em blogs pessoais, bem como em sites de compartilhamento de fotos ou vídeos. Em alguns casos, o upload foi feito uma década antes da criação do Laion-5B. De acordo com a Wired, algumas delas estavam no YouTube, em publicações com números pequenos de visualizações.

A HRW suspeita que haja mais material identificável de crianças, já que revisou menos de 0,0001% dos 5,85 bilhões de fotos e legendas do dataset.

Base de dados contém abuso infantil e registros médicos

O Laion-5B foi criado a partir do Common Crawl, repositório criado a partir da raspagem de dados da web. Ele também foi usado para treinar o Stable Diffusion, da Stability AI.

Esta não é a primeira vez que o dataset apresenta problemas do tipo. Em dezembro de 2023, pesquisadores da Universidade de Stanford encontraram material de abuso infantil entre as informações raspadas da internet.

Além das questões envolvendo crianças, uma artista encontrou sua própria imagem em um conjunto de dados da Laion. O material pertencia, originalmente, a seus registros médicos. O site Ars Technica realizou uma investigação e descobriu que o caso não era isolado: pacientes de diversas clínicas e hospitais tiveram suas fotos incluídas no dataset.

🚩My face is in the #LAION dataset. In 2013 a doctor photographed my face as part of clinical documentation. He died in 2018 and somehow that image ended up somewhere online and then ended up in the dataset- the image that I signed a consent form for my doctor- not for a dataset. pic.twitter.com/TrvjdZtyjD
— Lapine (@LapineDeLaTerre) September 16, 2022

A Laion é uma associação sem fins lucrativos com base na Alemanha. Em resposta à HRW, a organização confirmou a existência das imagens e se comprometeu a removê-las. Mesmo assim, ela nega que os dados podem ser reproduzidos na íntegra por modelos de IA e argumenta que as próprias crianças e seus tutores devem se responsabilizar por remover fotos pessoais da internet.

Com informações: Wired