IA da Microsoft gera avatar realista e pode ser útil em videochamadas
VASA-1 basicamente cria um deepfake para ser usado durante videochamadas. Microsoft não revelou quando deve lançar a tecnologia
Resumo
- A Microsoft anunciou a VASA-1, uma IA generativa capaz de criar avatares hiper-realistas para uso em videochamadas, funcionando sem a necessidade de uma webcam.
- O sistema usa apenas uma imagem e um áudio de um minuto do usuário para gerar o avatar.
- Ele permite ao usuário personalizar vários aspectos do avatar na videochamada, como zoom, posição do rosto e expressões emocionais.
- Apesar das inovações, a tecnologia ainda apresenta erros típicos de IAs e deepfakes, como distorções nos dentes e orelhas dos avatares.
- Atualmente, a Microsoft ainda não tem uma data definida para o lançamento desta tecnologia.
A Microsoft revelou nessa quinta-feira (18) a VASA-1, IA generativa capaz de criar avatares hiper-realistas para videochamadas. Basicamente, a VASA-1 cria um deepfake do usuário e dispensa o uso de webcam durante reuniões. Para criar o avatar, o framework precisa de apenas uma imagem e um áudio de 1 minuto ou mais do usuário.
A VASA -1, como mostra a Microsoft no anúncio do framework, permite que o usuário escolha vários presets para o vídeo que será exibido na videochamada. É possível, por exemplo, escolher a quantidade de zoom, a posição do rosto e emoções. A Microsoft informou que não há previsão do lançamento da VASA-1.
Avatares para videochamadas sem webcam
O VASA-1 tem como principal função permitir a participação de videochamadas sem webcams. Porém, todo mundo que já participou de uma reunião online pode pensar que ela tem uma outra aplicação: exibir um deepfake do nosso rosto para aqueles dias que não estamos bem para abrir a câmera — seja por um dia de calor, estar embaixo das cobertas em um dia frio ou apenas por se sentir acabado.
Segundo a Microsoft, nos primeiros testes com o framework foi possível gerar vídeos de 45 fps em aplicações offline. Já em transmissões, o fps cai para 40 e a latência fica em 170 ms — testes realizados em um desktop com uma GPU RTX 4090. Os vídeos têm 512 x 512 pixels de tamanho.
Por mais que não haja previsão de lançamento do framework, é natural imaginar que ele deve estrear primeiro no Microsoft Teams — caso seja lançado um dia. Contudo, a Microsoft pode lucrar fornecendo a API do VASA-1 para outras empresas.
Nova ferramenta, problemas de sempre
O anúncio da Microsoft traz dezenas de vídeos mostrando o uso do VASA-1 — e todas as pessoas na demonstração são imagens criadas por IA. Assistindo aos vídeos com mais atenção, você percebe os erros comuns das IAs de vídeos e deepfakes. Um dos exemplos conta com os dentes da personagem crescendo de tamanho durante alguns trechos.
No vídeo sobre o uso de diferentes emoções, podemos notar que a orelha direita do homem (esquerda de quem vê) está muito estranha e chega a mexer em alguns momentos — até com um pedaço da parte interna surgindo.
Com informações: MSPowerUser e XDA-Developers