Meta revela Audiobox, ferramenta de IA que transforma texto em áudio

Empresa acredita que nova tecnologia irá facilitar o trabalho de criadores de conteúdo. Será possível fazer correções em narrações, por exemplo.

Thássius Veloso

O conglomerado Meta ganhou as manchetes em junho ao anunciar o Voicebox, sistema de inteligência artificial que recria as vozes das pessoas. O próximo passo foi dado nesta semana, com a revelação do Audiobox, uma ferramenta mais completa, que consegue transformar texto escrito em áudio.

A Meta explicou que inúmeras aplicações são possíveis a partir da nova ferramenta. Por exemplo, entrar com o prompt “água corrente de um rio e depois pássaros cantando” para gerar um clipe de áudio com aproximadamente 5 segundos.

Outra possibilidade é descrever “uma jovem mulher fala com uma entonação alta e num ritmo veloz”. Depois, incluir a fala “the quick brown fox jumps over the lazy dog”. O resultado final segue exatamente o que foi determinado pelo usuário.

A ferramenta do Audiobox funciona também com orientações sobre o ambiente em questão (numa catedral) e sobre a emoção de quem fala (triste e lento).

“Até onde sabemos, o Audiobox é o primeiro modelo a permitir input duplo (prompts de voz e descrição em texto dos prompts) para reestilização de voz em forma livre”, declarou o conglomerado de Mark Zuckerberg num post sobre o tema.

Lançamento para grupo seleto

A Meta se antecipou em explicar que a ferramenta Audiobox foi liberada inicialmente para um grupo seleto de pesquisadores e de instituições acadêmicas com histórico de pesquisa sobre fala. Em outras palavras: não foi disponibilizada para todos os usuários, o que sempre levanta dúvidas sobre o impacto negativo da IA quando é utilizada para fins escusos.

Todos os áudios criados com o Audiobox recebem uma marca d’água e podem ser rastreados até a origem, de acordo com a Meta.

É importante notar que as demonstrações divulgadas pela companhia não parecem estar em qualidade máxima. Não ficou claro se é uma limitação técnica do Audiobox ou se optaram por fazer assim para evitar expor todo o potencial da ferramenta.

A dona do Instagram, Facebook e WhatsApp ainda disse que essa tecnologia tem potencial de ajudar os criadores de conteúdo, pois permitiria rapidamente fazer correções em áudios já gravados ou gerar clipes com efeitos sonoros.

Com informações: Meta e Maginative

Leia | Voice Over: como adicionar uma narração ao Reels do Instagram

Relacionados

Escrito por

Thássius Veloso

Thássius Veloso

Editor

Thássius Veloso é jornalista especializado em tecnologia. Desde 2008, participa das principais feiras de eletrônicos, TI e inovação. Thássius é editor do Tecnoblog e também atua como comentarista da CBN, palestrante e apresentador de eventos. Já colaborou com o Jornal Nacional e a GloboNews, entre outros veículos da imprensa. Ganhou o Prêmio Especialistas em duas ocasiões e foi indicado diversas vezes ao Prêmio Comunique-se. Pode ser encontrado como @thassius nas redes sociais.