O Google está trabalhando duro em sintetizar vozes que soam cada vez mais humanas. A ideia é tornar natural as interações com seu assistente pessoal, com alto-falantes Google Home e até com o Tradutor.

Desta vez, a empresa divulgou um novo avanço nesse sentido usando redes neurais. Você consegue reconhecer a diferença entre a voz humana e a sintetizada?

Foto por Stefan Schweihofer/Pixabay

O Google criou um sistema chamado Tacotron 2, para síntese de fala diretamente a partir de texto. Ele tem vários recursos interessantes, como corrigir sua escrita: você pode digitar “thisss isrealy awhsome” e ouvir a frase correta (“this is really awesome”).

Além disso, o sistema pronuncia as palavras de acordo com o significado. Por exemplo, “desert” pode ser “desertar” ou “deserto” — a rede neural detecta isso, e dá a ênfase correta.

Ele também faz pausas quando detecta vírgulas; muda a entonação ao fazer uma pergunta; pronuncia corretamente termos mais complexos como “otolaryngology” ou “Talib Kweli”; e é bom em trava-línguas.

O mais crucial, no entanto, é que o Tacotron 2 se aproxima bastante da voz humana. Nos exemplos abaixo, você consegue identificar qual frase foi dita por um humano, e qual foi produzida pela IA do Google? (Se os áudios não rodarem, visite esta página do Google para ouvi-los.)

1) “That girl did a video about Star Wars lipstick.”

a:
b:

2) “She earned a doctorate in sociology at Columbia University.”

a:
b:

3) “George Washington was the first President of the United States.”

a:
b:

4) “I’m too busy for romance.”

a:
b:

O gabarito está no final do post. Eu consegui identificar corretamente as vozes gerada por computador; algumas diferenças no ritmo de fala permitem detectar isso — elas são perceptíveis, mas bem sutis.

Essa nova técnica do Google reúne dois projetos anteriores de geração de fala: a WaveNet e o Tacotron original.

A WaveNet é uma rede neural que aprende a simular nossa voz. Ela começa com áudios gravados por humanos, tenta replicá-los e vai melhorando a cada iteração, até criar uma voz sintética próxima à real. Ela faz uma simulação usando 16 mil amostras para cada segundo.

Por sua vez, o Tacotron original servia para emular recursos de alto nível, como entonação e prosódia. Juntos, esses dois sistemas “produzem uma fala que soa natural e que se aproxima da fidelidade de áudio da fala humana real”, escrevem os pesquisadores. O estudo está disponível aqui.

Com informações: TechCrunch.

A voz humana corresponde aos exemplos 1a, 2b, 3b e 4a.

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Molinex
Eu vou é correr muito...
Thiago Sabaia
eu vou achar é top, vou ter com quem trocar umas ideias
Maxnoob
Houve uma atualização recentemente da Assistente do Google. Eu notei uma diferença na voz dela, parece mais natural.
Victor Freire
Eu vi esse vídeo tem um tempo. Se eu achar o link, eu posto aqui. Edit: eu vi neste post do Meiobit mas o vídeo não está mais disponível. ? http://meiobit.com/355910/como-seria-a-cobertura-da-imprensa-de-confronto-nuclear-entre-eua-e-russia-day-after-guerra-dos-mundos/
Paul
Boa. Kkkkkkkkkkkkkkkk
Paul
Caraca, tu é engenheiro de software? Agora até que faz sentido, pois muito dos teus comentários que vejo por aí, têm informações bem técnicas. Bem legal msm. :)
Maikon Jordan
As vezes meu celular fala sozinho que não conseguiu me entender e é pra eu repetir. Isso da medo sim kkkk
Thiago
Não sei inglês, mas deu pra entender bem kkkkk
Marcos Soares Santos
me manda esse link por favor
Molinex
Mas esse é o problema, fica ai, achando que uma maquina falar é normal... Amanhã essa mesma maquina vem e te mata...
Molinex
Sim, é estranha por ser maquina... Vai por mim, se você ver, por exemplo, uma mesa falando quase a mesma coisa que você, você também ira se assustar...
Jonas S. Marques
Yuph, inclusive, olha eu ali https://tecnoblog.net/191099/maquina-cartao-acessibilidade-cegos/
Paul
O quê? Espera... Tu é cego? :O
Thomaztodeschini
Windows Xp + LG Flatron = 00'
Mario Junior ?????????
A única que ei consegui diferenciar foi a última.
Exibir mais comentários