Vall-E, da Microsoft, pode imitar qualquer voz com uma pequena amostra de áudio

Vall-E é uma IA que precisa de uma amostra com apenas três segundos para reproduzir um texto com a voz de qualquer pessoa

Emerson Alecrim
Por
Vall-E, da Microsoft, pode imitar qualquer voz (imagem ilustrativa: Magda Ehlers/Pexels)
Vall-E, da Microsoft, pode imitar qualquer voz (imagem ilustrativa: Magda Ehlers/Pexels)

O nome é parecido com o do simpático robozinho da Pixar. Mas, na verdade, o Vall-E é uma tecnologia da Microsoft capaz de imitar qualquer voz. Para tanto, o sistema precisa de uma amostra com apenas três segundos de uma fala. A novidade poderá ser empregada na dublagem de filmes, por exemplo, embora usos maliciosos também sejam possíveis.

A Microsoft descreve o Vall-E como um “modelo de linguagem de codec neural”. A razão disso está no fato de o projeto ser baseado no EnCodec, tecnologia da Meta (Facebook) que usa inteligência artificial para comprimir áudio sem perda de qualidade.

Uma tecnologia como o Vall-E tem a proposta de reproduzir em áudio o conteúdo de um texto. Tal como o Ars Technica enfatiza, outros mecanismos do tipo geralmente sintetizam a fala manipulando formas de onda. O Vall-E é diferente. A tecnologia da Microsoft gera “tokens acústicos” para esse fim.

Basicamente, o Vall-E analisa a amostra (relembrando, ela precisa ter só três segundos) e divide essa informação em componentes discretos (os tais tokens) por meio do EnCodec. Depois, com base nos dados de treinamento, o mecanismo determina como essa voz soaria expressando outras falas.

O Vall-E funciona?

De acordo com a Microsoft, o Vall-E foi treinado com outro recurso da Meta: o Libri-light, uma biblioteca com 60 mil horas de falas em inglês de mais de 7 mil pessoas.

Isso levou a resultados interessantes. Na página de demonstração do Vall-E, é possível conferir alguns testes. Em boa parte deles, os áudios gerados pela tecnologia são incrivelmente parecidos com a voz da amostra original (indicada ali como Speaker Prompt).

Em alguns resultados, é possível perceber uma certa artificialidade. Mas, em outros, é praticamente impossível descobrir que aquela reprodução foi gerada por inteligência artificial.

O trunfo do Vall-E está em não apenas “absorver” o timbre da voz da amostra, mas também em replicar o tom emocional detectado.

A tecnologia é capaz até de imitar o ambiente acústico. Por exemplo, se a voz vier de uma chamada telefônica, o Vall-E pode gerar resultados que imitam essa circunstância.

O Vall-E requer uma amostra de apenas três segundos (imagem: divulgação/Microsoft)
O Vall-E requer uma amostra de apenas três segundos (imagem: divulgação/Microsoft)

Uso para o bem e para o mal

Uma tecnologia como essa pode ser útil em diversas aplicações. Imagine, como exemplo, uma dublagem que preserva a voz do ator do filme. Ou, então, uma mensagem de fim de ano declarada em vários idiomas pelo CEO de uma empresa a seus funcionários no mundo todo.

Essas possibilidades, aliás, foram abordadas no Tecnocast 268, que discute sobre usos negativos e positivos de deepfakes.

Falando em uso negativo, talvez você já tenha pensado em possíveis implicações maléficas do Vall-E. Imagine se a tecnologia for usada para atribuir uma fala falsa a um político, por exemplo.

Talvez seja por isso que, pelo menos por enquanto, a Microsoft não liberou publicamente o código-fonte do Vall-E.

Prevendo o risco de problemas, os pesquisadores do projeto mencionam a possibilidade de um modelo de detecção ser desenvolvido para indicar se um áudio foi gerado pelo Vall-E. Eles também falam em seguir os princípios de inteligência artificial da Microsoft na criação de modelos.

Receba mais notícias do Tecnoblog na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Emerson Alecrim

Emerson Alecrim

Repórter

Emerson Alecrim cobre tecnologia desde 2001 e entrou para o Tecnoblog em 2013, se especializando na cobertura de temas como hardware, sistemas operacionais e negócios. Formado em ciência da computação, seguiu carreira em comunicação, sempre mantendo a tecnologia como base. Em 2022, foi reconhecido no Prêmio ESET de Segurança em Informação. Em 2023, foi reconhecido no Prêmio Especialistas, em eletroeletrônicos. Participa do Tecnocast, já passou pelo TechTudo e mantém o site Infowester.

Relacionados