Rede neural do Google consegue imitar ainda melhor a voz humana

há 6 anos e 4 meses • Atualizado há 2 semanas

O Google está trabalhando duro em sintetizar vozes que soam cada vez mais humanas. A ideia é tornar natural as interações com seu assistente pessoal, com alto-falantes Google Home e até com o Tradutor.

Desta vez, a empresa divulgou um novo avanço nesse sentido usando redes neurais. Você consegue reconhecer a diferença entre a voz humana e a sintetizada?

O Google criou um sistema chamado Tacotron 2, para síntese de fala diretamente a partir de texto. Ele tem vários recursos interessantes, como corrigir sua escrita: você pode digitar “thisss isrealy awhsome” e ouvir a frase correta (“this is really awesome”).

Além disso, o sistema pronuncia as palavras de acordo com o significado. Por exemplo, “desert” pode ser “desertar” ou “deserto” — a rede neural detecta isso, e dá a ênfase correta.

Ele também faz pausas quando detecta vírgulas; muda a entonação ao fazer uma pergunta; pronuncia corretamente termos mais complexos como “otolaryngology” ou “Talib Kweli”; e é bom em trava-línguas.

O mais crucial, no entanto, é que o Tacotron 2 se aproxima bastante da voz humana. Nos exemplos abaixo, você consegue identificar qual frase foi dita por um humano, e qual foi produzida pela IA do Google? (Se os áudios não rodarem, visite esta página do Google para ouvi-los.)

1) “That girl did a video about Star Wars lipstick.”

a:
b:

2) “She earned a doctorate in sociology at Columbia University.”

a:
b:

3) “George Washington was the first President of the United States.”

a:
b:

4) “I’m too busy for romance.”

a:
b:

O gabarito está no final do post. Eu consegui identificar corretamente as vozes gerada por computador; algumas diferenças no ritmo de fala permitem detectar isso — elas são perceptíveis, mas bem sutis.

Essa nova técnica do Google reúne dois projetos anteriores de geração de fala: a WaveNet e o Tacotron original.

A WaveNet é uma rede neural que aprende a simular nossa voz. Ela começa com áudios gravados por humanos, tenta replicá-los e vai melhorando a cada iteração, até criar uma voz sintética próxima à real. Ela faz uma simulação usando 16 mil amostras para cada segundo.

Por sua vez, o Tacotron original servia para emular recursos de alto nível, como entonação e prosódia. Juntos, esses dois sistemas “produzem uma fala que soa natural e que se aproxima da fidelidade de áudio da fala humana real”, escrevem os pesquisadores. O estudo está disponível aqui.

Com informações: TechCrunch.

A voz humana corresponde aos exemplos 1a, 2b, 3b e 4a.