IA da Microsoft gera avatar realista e pode ser útil em videochamadas

VASA-1 basicamente cria um deepfake para ser usado durante videochamadas. Microsoft não revelou quando deve lançar a tecnologia

Por Felipe Freitas

há 3 meses

VASA-1 cria avatares realistas para vídeo-chamadas, mas ainda tem falhas, como dentes do avatar mudando de tamanho no decorrer do vídeo (Imagem: Reprodução/Tecnoblog)

Resumo

A Microsoft anunciou a VASA-1, uma IA generativa capaz de criar avatares hiper-realistas para uso em videochamadas, funcionando sem a necessidade de uma webcam.
O sistema usa apenas uma imagem e um áudio de um minuto do usuário para gerar o avatar.
Ele permite ao usuário personalizar vários aspectos do avatar na videochamada, como zoom, posição do rosto e expressões emocionais.
Apesar das inovações, a tecnologia ainda apresenta erros típicos de IAs e deepfakes, como distorções nos dentes e orelhas dos avatares.
Atualmente, a Microsoft ainda não tem uma data definida para o lançamento desta tecnologia.

A Microsoft revelou nessa quinta-feira (18) a VASA-1, IA generativa capaz de criar avatares hiper-realistas para videochamadas. Basicamente, a VASA-1 cria um deepfake do usuário e dispensa o uso de webcam durante reuniões. Para criar o avatar, o framework precisa de apenas uma imagem e um áudio de 1 minuto ou mais do usuário.

A VASA -1, como mostra a Microsoft no anúncio do framework, permite que o usuário escolha vários presets para o vídeo que será exibido na videochamada. É possível, por exemplo, escolher a quantidade de zoom, a posição do rosto e emoções. A Microsoft informou que não há previsão do lançamento da VASA-1.

Avatares para videochamadas sem webcam

VESA-1 pode acabar com uso de webcams nas videochamadas (Imagem: Divulgação/Microsoft) — VASA-1 pode acabar com uso de webcams nas videochamadas (Imagem: Divulgação/Microsoft)

O VASA-1 tem como principal função permitir a participação de videochamadas sem webcams. Porém, todo mundo que já participou de uma reunião online pode pensar que ela tem uma outra aplicação: exibir um deepfake do nosso rosto para aqueles dias que não estamos bem para abrir a câmera — seja por um dia de calor, estar embaixo das cobertas em um dia frio ou apenas por se sentir acabado.

Segundo a Microsoft, nos primeiros testes com o framework foi possível gerar vídeos de 45 fps em aplicações offline. Já em transmissões, o fps cai para 40 e a latência fica em 170 ms — testes realizados em um desktop com uma GPU RTX 4090. Os vídeos têm 512 x 512 pixels de tamanho.

Por mais que não haja previsão de lançamento do framework, é natural imaginar que ele deve estrear primeiro no Microsoft Teams — caso seja lançado um dia. Contudo, a Microsoft pode lucrar fornecendo a API do VASA-1 para outras empresas.

Nova ferramenta, problemas de sempre

O anúncio da Microsoft traz dezenas de vídeos mostrando o uso do VASA-1 — e todas as pessoas na demonstração são imagens criadas por IA. Assistindo aos vídeos com mais atenção, você percebe os erros comuns das IAs de vídeos e deepfakes. Um dos exemplos conta com os dentes da personagem crescendo de tamanho durante alguns trechos.

No vídeo sobre o uso de diferentes emoções, podemos notar que a orelha direita do homem (esquerda de quem vê) está muito estranha e chega a mexer em alguns momentos — até com um pedaço da parte interna surgindo.

Com informações: MSPowerUser e XDA-Developers

Comentários da Comunidade

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

4 comentários

Participe da discussão

Os mais notáveis

Comentários com a maior pontuação

Rodolfo Ribeiro Gutman

Rodolfo Ribeiro Gutman 3 meses atrás

Só lendo a matéria pensei umas 5 merdas que essa tecnologia vai dar, o que vai ter de justa causa por conta dissso, brincadeira!

1

Felipe Freitas

Felipe Freitas 3 meses atrás

Enquanto eu escrevia eu pensei nisso. Mas também imaginei casos de algum diretor/gerente/dono anunciar algo que desagrada a galera e depois diz “gente, não era eu. Alguém fez deepfake com o VASA-1”
Edit: VASA-1 vai liberar a energia dessa música aqui

3

$com 40% mais IA que a concorrência. ¯\_(ツ)_/¯$

com 40% mais IA que a concorrência. ¯\_(ツ)_/¯ 3 meses atrás

Lembra da época que a gente usava só a webcam pra video chamada?

1

Relacionados

Autor(a)

Felipe Freitas

Repórter

Felipe Freitas é jornalista graduado pela UFSC, interessado em tecnologia e suas aplicações para um mundo melhor. Na cobertura tech desde 2021 e micreiro desde 1998, quando seu pai trouxe um PC para casa pela primeira vez. Passou pelo Adrenaline/Mundo Conectado. Participou da confecção de reviews de smartphones e outros aparelhos.