Google Translatotron traduz e imita sua voz

Tecnologia do Google não precisa de conversão para texto e preserva características da voz

Paulo Higa
Por
• Atualizado há 2 anos e 4 meses
Google Tradutor (Foto: Wikimedia Commons)

Quase todos os tradutores de voz funcionam da mesma forma: eles convertem sua fala para texto, traduzem o texto e depois sintetizam o texto traduzido em uma nova voz. O Google anunciou nesta quarta-feira (15) o Translatotron, que elimina a fase intermediária e traduz de voz para voz. Não apenas isso: ele também é capaz de preservar as características da voz original.

O Translatotron (quero ver você falar isso rápido três vezes) é o nome que o Google deu para um novo sistema experimental capaz de fazer “tradução direta de fala para fala sem depender de representação intermediária em texto”. Em resumo, ele usa como fonte os espectrogramas originais e então gera espectrogramas traduzidos na linguagem definida.

Segundo o Google, “esse sistema evita dividir a tarefa em estágios separados, fornecendo algumas vantagens sobre sistemas em cascata, incluindo velocidade de inferência mais rápida, evitando naturalmente erros de composição entre reconhecimento e tradução, facilitando a retenção da voz do falante original após a tradução e lidando melhor com palavras que não precisam ser traduzidas”.

E quão bom é o Translatotron?

Neste primeiro exemplo, fica claro como ele é melhor que um sistema em cascata especialmente quando há nomes próprios. Esta é a fala original, em espanhol:

O sistema baseado em texto traduziu o nome Guillermo para William (o que obviamente não era a intenção):

Já o Translatotron fez a tradução correta, inclusive preservando o “ahn”:

As traduções acima foram realizadas apenas com um vocoder neural, que pode analisar e sintetizar uma voz humana. Mas também é possível adicionar um módulo que o Google chama de codificador de falante: ele “mantém as características da voz do falante na fala traduzida sintetizada”. As duas partes podem funcionar em conjunto, trabalhando apenas com ondas sonoras, sem texto envolvido.

O resultado não é perfeito, mas é mais familiar que no método tradicional. Esta é a fala original em espanhol:

Aqui temos a tradução já com o Translatotron, mas utilizando apenas uma voz padrão:

E esta é a tradução imitando a voz original (o Google explica que este modelo foi treinado com menos dados, por isso a tradução é um pouco diferente da anterior):

O Translatotron é apenas um experimento por enquanto, mas não é difícil imaginar que ele seja utilizado em algum produto do Google no futuro, como o Google Tradutor. Os detalhes da pesquisa podem ser encontrados nesta página.

Receba mais notícias do Tecnoblog na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Paulo Higa

Paulo Higa

Ex-editor executivo

Paulo Higa é jornalista com MBA em Gestão pela FGV e uma década de experiência na cobertura de tecnologia. No Tecnoblog, atuou como editor-executivo e head de operações entre 2012 e 2023. Viajou para mais de 10 países para acompanhar eventos da indústria e já publicou 400 reviews de celulares, TVs e computadores. Foi coapresentador do Tecnocast e usa a desculpa de ser maratonista para testar wearables que ainda nem chegaram ao Brasil.

Relacionados