Rede neural do Google consegue imitar ainda melhor a voz humana
O Google está trabalhando duro em sintetizar vozes que soam cada vez mais humanas. A ideia é tornar natural as interações com seu assistente pessoal, com alto-falantes Google Home e até com o Tradutor.
Desta vez, a empresa divulgou um novo avanço nesse sentido usando redes neurais. Você consegue reconhecer a diferença entre a voz humana e a sintetizada?
O Google criou um sistema chamado Tacotron 2, para síntese de fala diretamente a partir de texto. Ele tem vários recursos interessantes, como corrigir sua escrita: você pode digitar “thisss isrealy awhsome” e ouvir a frase correta (“this is really awesome”).
Além disso, o sistema pronuncia as palavras de acordo com o significado. Por exemplo, “desert” pode ser “desertar” ou “deserto” — a rede neural detecta isso, e dá a ênfase correta.
Ele também faz pausas quando detecta vírgulas; muda a entonação ao fazer uma pergunta; pronuncia corretamente termos mais complexos como “otolaryngology” ou “Talib Kweli”; e é bom em trava-línguas.
O mais crucial, no entanto, é que o Tacotron 2 se aproxima bastante da voz humana. Nos exemplos abaixo, você consegue identificar qual frase foi dita por um humano, e qual foi produzida pela IA do Google? (Se os áudios não rodarem, visite esta página do Google para ouvi-los.)
1) “That girl did a video about Star Wars lipstick.”
a: | |
b: |
2) “She earned a doctorate in sociology at Columbia University.”
a: | |
b: |
3) “George Washington was the first President of the United States.”
a: | |
b: |
4) “I’m too busy for romance.”
a: | |
b: |
O gabarito está no final do post. Eu consegui identificar corretamente as vozes gerada por computador; algumas diferenças no ritmo de fala permitem detectar isso — elas são perceptíveis, mas bem sutis.
Essa nova técnica do Google reúne dois projetos anteriores de geração de fala: a WaveNet e o Tacotron original.
A WaveNet é uma rede neural que aprende a simular nossa voz. Ela começa com áudios gravados por humanos, tenta replicá-los e vai melhorando a cada iteração, até criar uma voz sintética próxima à real. Ela faz uma simulação usando 16 mil amostras para cada segundo.
Por sua vez, o Tacotron original servia para emular recursos de alto nível, como entonação e prosódia. Juntos, esses dois sistemas “produzem uma fala que soa natural e que se aproxima da fidelidade de áudio da fala humana real”, escrevem os pesquisadores. O estudo está disponível aqui.
Com informações: TechCrunch.
A voz humana corresponde aos exemplos 1a, 2b, 3b e 4a.
Leia | O que é deep learning?