IA da Microsoft gera avatar realista e pode ser útil em videochamadas

VASA-1 basicamente cria um deepfake para ser usado durante videochamadas. Microsoft não revelou quando deve lançar a tecnologia

Felipe Freitas
Por
• Atualizado há 1 semana
Dentes do avatar crescem e mudam de tamanho no decorrer do vídeo (Imagem: Reprodução/Tecnoblog)
VASA-1 cria avatares realistas para vídeo-chamadas, mas ainda tem falhas, como dentes do avatar mudando de tamanho no decorrer do vídeo (Imagem: Reprodução/Tecnoblog)
Resumo
  • A Microsoft anunciou a VASA-1, uma IA generativa capaz de criar avatares hiper-realistas para uso em videochamadas, funcionando sem a necessidade de uma webcam.
  • O sistema usa apenas uma imagem e um áudio de um minuto do usuário para gerar o avatar.
  • Ele permite ao usuário personalizar vários aspectos do avatar na videochamada, como zoom, posição do rosto e expressões emocionais.
  • Apesar das inovações, a tecnologia ainda apresenta erros típicos de IAs e deepfakes, como distorções nos dentes e orelhas dos avatares.
  • Atualmente, a Microsoft ainda não tem uma data definida para o lançamento desta tecnologia.

A Microsoft revelou nessa quinta-feira (18) a VASA-1, IA generativa capaz de criar avatares hiper-realistas para videochamadas. Basicamente, a VASA-1 cria um deepfake do usuário e dispensa o uso de webcam durante reuniões. Para criar o avatar, o framework precisa de apenas uma imagem e um áudio de 1 minuto ou mais do usuário.

A VASA -1, como mostra a Microsoft no anúncio do framework, permite que o usuário escolha vários presets para o vídeo que será exibido na videochamada. É possível, por exemplo, escolher a quantidade de zoom, a posição do rosto e emoções. A Microsoft informou que não há previsão do lançamento da VASA-1.

Avatares para videochamadas sem webcam

VESA-1 pode acabar com uso de webcams nas videochamadas (Imagem: Divulgação/Microsoft)
VASA-1 pode acabar com uso de webcams nas videochamadas (Imagem: Divulgação/Microsoft)

O VASA-1 tem como principal função permitir a participação de videochamadas sem webcams. Porém, todo mundo que já participou de uma reunião online pode pensar que ela tem uma outra aplicação: exibir um deepfake do nosso rosto para aqueles dias que não estamos bem para abrir a câmera — seja por um dia de calor, estar embaixo das cobertas em um dia frio ou apenas por se sentir acabado.

Segundo a Microsoft, nos primeiros testes com o framework foi possível gerar vídeos de 45 fps em aplicações offline. Já em transmissões, o fps cai para 40 e a latência fica em 170 ms — testes realizados em um desktop com uma GPU RTX 4090. Os vídeos têm 512 x 512 pixels de tamanho.

Por mais que não haja previsão de lançamento do framework, é natural imaginar que ele deve estrear primeiro no Microsoft Teams — caso seja lançado um dia. Contudo, a Microsoft pode lucrar fornecendo a API do VASA-1 para outras empresas.

Nova ferramenta, problemas de sempre

O anúncio da Microsoft traz dezenas de vídeos mostrando o uso do VASA-1 — e todas as pessoas na demonstração são imagens criadas por IA. Assistindo aos vídeos com mais atenção, você percebe os erros comuns das IAs de vídeos e deepfakes. Um dos exemplos conta com os dentes da personagem crescendo de tamanho durante alguns trechos.

No vídeo sobre o uso de diferentes emoções, podemos notar que a orelha direita do homem (esquerda de quem vê) está muito estranha e chega a mexer em alguns momentos — até com um pedaço da parte interna surgindo.

Com informações: MSPowerUser e XDA-Developers

Receba mais sobre Microsoft na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Felipe Freitas

Felipe Freitas

Repórter

Felipe Freitas é jornalista graduado pela UFSC, interessado em tecnologia e suas aplicações para um mundo melhor. Na cobertura tech desde 2021 e micreiro desde 1998, quando seu pai trouxe um PC para casa pela primeira vez. Passou pelo Adrenaline/Mundo Conectado. Participou da confecção de reviews de smartphones e outros aparelhos.

Relacionados