Inteligência artificial precisa apenas da sua foto para criar um vídeo

Site da empresa D-ID só precisa de uma foto e um texto para gerar um "deepfake"; há filtros e regras contra uso indevido, porém

Emerson Alecrim
Por

Escolha a foto de uma pessoa. Suba a imagem para o site Creative Reality Studio, junto com um texto. Espere um pouco. Pronto. Agora, a pessoa da foto aparece em um vídeo falando o texto escrito por você. Parece bruxaria, mas é mais uma façanha da inteligência artificial. Esta sob controle da israelense D-ID.

Creative Reality Studio, da D-ID (imagem: Emerson Alecrim/Tecnoblog)
Creative Reality Studio, da D-ID (imagem: Emerson Alecrim/Tecnoblog)

A empresa afirma que o serviço foi desenvolvido com o intuito de gerar vídeos para treinamentos, educação corporativa, campanhas de marketing, comunicação interna e assim por diante.

Deve ser por isso que a D-ID evita o uso do termo deepfake. A palavra está fortemente associada ao uso negativo da tecnologia (para manipulação política, por exemplo).

Um vídeo com seu rosto em segundos

Não é preciso ser especialista em edição de vídeos para usufruir do Creative Reality Studio. O site é intuitivo e permite a qualquer pessoa criar um vídeo com uma pessoa falando, em segundos ou minutos.

Tudo o que é necessário fazer é escolher um dos apresentadores disponíveis no site e digitar um texto no campo ao lado.

O idioma padrão é o inglês dos Estados Unidos, mas há 119 línguas disponíveis, incluindo o português do Brasil. É possível escolher uma entre várias opções de vozes femininas e masculinas. Um estilo de voz associado a uma emoção também pode ser escolhido: triste, amigável, esperançoso, irritado, entre outros.

Também é possível fazer upload de um arquivo de áudio com a voz da pessoa para dar mais realismo ao conteúdo esperado.

Você já sabe o que acontece na sequência. Todos esses dados são usados pelo sistema de inteligência artificial para gerar o vídeo. Depois, é só baixar e publicar o vídeo em páginas corporativas, redes sociais e por aí vai.

Como já informado, também é possível gerar um vídeo fazendo upload de uma simples foto. Eis o resultado com uma imagem minha:

YouTube video

Mas funciona?

Funciona. Nem sempre o resultado é imediato, porém. O tempo de espera para o vídeo ser gerado depende da duração da fala, do idioma e até do apresentador escolhido. De todo modo, o processo não costuma levar mais do que alguns minutos e dura apenas alguns segundos se o material for curto.

O idioma é um fator crítico aqui. Há numerosas vozes para o inglês americano, por exemplo. Por outro lado, só há uma voz feminina e uma voz masculina para o português brasileiro. Pelo menos a pronúncia é feita corretamente, quase sempre.

De modo geral, o resultado é convincente, embora seja fácil perceber que se trata de um deepfake. Note, por exemplo, que a cabeça tem um movimento padronizado, como se fosse uma coreografia. Além disso, é possível perceber que o movimento dos lábios nem sempre condiz com as palavras pronunciadas.

Aliás, esses são os sinais mais óbvios que você pode analisar para descobrir se um vídeo é deepfake.

Filtros contra deepfakes maliciosos

Gil Perry, CEO da D-ID, deixou claro para o TechCrunch que o Creative Reality Studio foi projetado para casos de uso legítimos, isto é, sem fins maliciosos. Como exemplo, o executivo explicou que a tecnologia pode ser usada para o CEO de uma companhia enviar uma mensagem aos seus funcionários em múltiplos idiomas.

Mas a D-ID sabe que deepfakes vêm sendo usados para manipulações políticas ou para prejudicar a imagem de pessoas públicas, por exemplo. É por que isso que o sistema da empresa conta com alguns filtros.

Os algoritmos podem barrar palavrões e expressões racistas, por exemplo. Além disso, a tecnologia importa uma API da Microsoft Azure que elimina falas sexuais ou ofensivas em vídeos.

Também há um sistema de reconhecimento de imagem que impede — ou pelo menos tenta impedir — o uso de imagens de pessoas famosas. Tentei subir uma foto de Bill Gates e não deu certo.

D-ID tem filtro que barra fotos de famosos (imagem: Emerson Alecrim/Tecnoblog)
D-ID tem filtro que barra fotos de famosos (imagem: Emerson Alecrim/Tecnoblog)

Por outro lado, nos testes que fiz, o filtro de palavrões funcionou em inglês, mas não em português do Brasil.

Existe uma política contra uso indevido, porém. A D-ID explica que, em caso de violação das regras, o usuário pode ser banido da plataforma e ter o seu conteúdo apagado.

Serviço é pago, mas tem teste gratuito

Caso você queira testar, basta fazer um cadastro no site do Creative Reality Studio. No momento, o serviço oferece dois planos pagos. O primeiro custa US$ 49 por mês e dá direito a 60 créditos. Cada crédito corresponde a 15 segundos de vídeo. O segundo é um plano ilimitado, mas cujo valor deve ser negociado.

Existe também um plano gratuito, para testes, com 20 créditos e duração de 14 dias. Neste, os vídeos gerados têm marcas d’água sobre toda a imagem.

Para as contas pagas, há recursos adicionais, como plugin de PowerPoint, suporte por email e apresentadores com expressões faciais mais realistas.