Vall-E, da Microsoft, pode imitar qualquer voz com uma pequena amostra de áudio

Vall-E é uma IA que precisa de uma amostra com apenas três segundos para reproduzir um texto com a voz de qualquer pessoa

Emerson Alecrim
Por

O nome é parecido com o do simpático robozinho da Pixar. Mas, na verdade, o Vall-E é uma tecnologia da Microsoft capaz de imitar qualquer voz. Para tanto, o sistema precisa de uma amostra com apenas três segundos de uma fala. A novidade poderá ser empregada na dublagem de filmes, por exemplo, embora usos maliciosos também sejam possíveis.

Vall-E, da Microsoft, pode imitar qualquer voz (imagem ilustrativa: Magda Ehlers/Pexels)
Vall-E, da Microsoft, pode imitar qualquer voz (imagem ilustrativa: Magda Ehlers/Pexels)

A Microsoft descreve o Vall-E como um “modelo de linguagem de codec neural”. A razão disso está no fato de o projeto ser baseado no EnCodec, tecnologia da Meta (Facebook) que usa inteligência artificial para comprimir áudio sem perda de qualidade.

Uma tecnologia como o Vall-E tem a proposta de reproduzir em áudio o conteúdo de um texto. Tal como o Ars Technica enfatiza, outros mecanismos do tipo geralmente sintetizam a fala manipulando formas de onda. O Vall-E é diferente. A tecnologia da Microsoft gera “tokens acústicos” para esse fim.

Basicamente, o Vall-E analisa a amostra (relembrando, ela precisa ter só três segundos) e divide essa informação em componentes discretos (os tais tokens) por meio do EnCodec. Depois, com base nos dados de treinamento, o mecanismo determina como essa voz soaria expressando outras falas.

O Vall-E funciona?

De acordo com a Microsoft, o Vall-E foi treinado com outro recurso da Meta: o Libri-light, uma biblioteca com 60 mil horas de falas em inglês de mais de 7 mil pessoas.

Isso levou a resultados interessantes. Na página de demonstração do Vall-E, é possível conferir alguns testes. Em boa parte deles, os áudios gerados pela tecnologia são incrivelmente parecidos com a voz da amostra original (indicada ali como Speaker Prompt).

Em alguns resultados, é possível perceber uma certa artificialidade. Mas, em outros, é praticamente impossível descobrir que aquela reprodução foi gerada por inteligência artificial.

O trunfo do Vall-E está em não apenas “absorver” o timbre da voz da amostra, mas também em replicar o tom emocional detectado.

A tecnologia é capaz até de imitar o ambiente acústico. Por exemplo, se a voz vier de uma chamada telefônica, o Vall-E pode gerar resultados que imitam essa circunstância.

O Vall-E requer uma amostra de apenas três segundos (imagem: divulgação/Microsoft)
O Vall-E requer uma amostra de apenas três segundos (imagem: divulgação/Microsoft)

Uso para o bem e para o mal

Uma tecnologia como essa pode ser útil em diversas aplicações. Imagine, como exemplo, uma dublagem que preserva a voz do ator do filme. Ou, então, uma mensagem de fim de ano declarada em vários idiomas pelo CEO de uma empresa a seus funcionários no mundo todo.

Essas possibilidades, aliás, foram abordadas no Tecnocast 268, que discute sobre usos negativos e positivos de deepfakes.

Falando em uso negativo, talvez você já tenha pensado em possíveis implicações maléficas do Vall-E. Imagine se a tecnologia for usada para atribuir uma fala falsa a um político, por exemplo.

Talvez seja por isso que, pelo menos por enquanto, a Microsoft não liberou publicamente o código-fonte do Vall-E.

Prevendo o risco de problemas, os pesquisadores do projeto mencionam a possibilidade de um modelo de detecção ser desenvolvido para indicar se um áudio foi gerado pelo Vall-E. Eles também falam em seguir os princípios de inteligência artificial da Microsoft na criação de modelos.

Relacionados

Relacionados