Após polêmica, Gemini voltará a gerar imagens de pessoas

Google diz que resolveu problemas de precisão histórica no Imagen 3. Novo modelo promete gerar figuras de forma mais criativa e detalhada.

Giovanni Santa Rosa
Por
• Atualizado há 3 dias
Marca do Gemini em cores claras, num fundo azul
Gemini terá acesso a Imagen 3, com mais capacidade para gerar imagens (Imagem: Vitor Pádua / Tecnoblog)

O Google vai liberar novamente a geração de imagens de pessoas em sua ferramenta de inteligência artificial Gemini. O recurso será disponibilizado inicialmente para usuários de planos empresariais e assinantes do Gemini Advanced, apenas em inglês.

Em fevereiro, o Google virou alvo de críticas por seus modelos de IA gerarem imagens historicamente imprecisas. Ao pedir uma ilustração de um soldado nazista alemão, por exemplo, a ferramenta retornava figuras de pessoas negras e asiáticas com fardas militares.

Em teste, Gemini gerou imagem imprecisa de soldados da Alemanha na Segunda Guerra Mundial (Imagem: Reprodução/TheVerge)
Em teste, Gemini gerou imagem imprecisa de soldados da Alemanha na Segunda Guerra Mundial (Imagem: Reprodução / The Verge)

O caso não era exclusivo: a ferramenta errava constantemente em situações do tipo, colocando nativos americanos na Grécia antiga, ou negros e asiáticos como exemplos de senadores nos Estados Unidos do século 19.

Aparentemente, a ferramenta incluir diversidade étnica e de gênero ao gerar imagens, como forma de evitar problemas de discriminação comuns à IA. A empresa admitiu que seus modelos “passaram do ponto” neste aspecto e, em resposta à polêmica, pausou a geração de imagens de pessoas.

Imagen 3 será disponibilizado para todo mundo

A correção faz parte do Imagen 3, novo modelo para geração de imagens. Anunciado em maio de 2024, durante a conferência Google I/O, ele será liberado para todos os usuários ao longo da próxima semana e funciona em todos os idiomas em que o Gemini está disponível.

Duas imagens de rosas com gotículas d'água sobre as pétalas. A imagem gerada pelo Imagen 3 é mais detalhada que a do Imagen 2.
Imagen 3 promete imagens mais detalhadas e realísticas (Imagem: Divulgação / Google)

Reforçando: o modelo estará disponível para todos, mas a geração de pessoas será liberada só em inglês, só para assinantes pagos.

Segundo o Google, a nova IA foi treinada para melhorar a variedade e diversidade de conceitos associados às imagens. A empresa afirma que ampliou os testes internos e externos. Por isso, ela gera figuras de pessoas de forma mais “justa”.

Além disso, o Gemini não vai gerar imagens realistas de pessoas públicas, conteúdos envolvendo menores de idade e cenas sexuais, violentas ou repugnantes.

Controvérsias à parte, o Google diz que o Imagen 3 consegue entender melhor os prompts e gerar imagens de forma mais criativa e detalhada. A empresa menciona paisagens realísticas e pinturas a óleo com textura como exemplos do que a ferramenta é capaz de fazer.

Com informações: Google, The Verge, TechCrunch

Relacionados

Escrito por

Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.