Já reparou que, ao contrário do Google e da Microsoft, a Apple não costuma dar detalhes sobre o funcionamento de suas tecnologias? Mas, às vezes, a companhia deixa a discrição de lado: recentemente, a equipe responsável pela Siri divulgou um artigo que mostra como a aprendizagem de máquina ajudou a voz da assistente a soar mais natural aos nossos ouvidos.

As vozes que escutamos de assistentes virtuais, ferramentas de tradução, aplicativos de mapas e outros serviços normalmente são oriundas de horas e mais horas de gravações com humanos. As falas são cortadas, niveladas e editadas de várias formas para termos a impressão de que há algo de realmente humano ali.

Siri

Só que a gente sempre percebe que a voz é robotizada, digamos assim, pois os desenvolvedores não conseguem aplicar nela os padrões de pronúncia, estresse e entonação que são inerentes a cada idioma.

No iOS 11 (a ser liberado publicamente nas próximas semanas), a Apple quis deixar a Siri longe dessa limitação, tanto quanto possível. O primeiro passo consistiu em fazer testes com centenas de pessoas para encontrar a melhor voz. Com o vocal feminino escolhido, o passo seguinte foi a gravação de mais de 20 horas de fala. Esse trabalho levou à criação de um sistema texto-voz (TTS, na sigla em inglês).

A diferença em relação aos sistemas texto-voz anteriores é que, no novo, a aprendizagem de máquina falou com vontade, com o perdão do trocadilho. As horas gravadas geraram centenas de milhares de segmentos de áudio que serviram de base para o treinamento: o TTS aprendeu a selecionar os fragmentos que se combinam para criar respostas que soam naturais.

Um detalhe curioso é que mesmo os usuários que interagem com mais frequência com a Siri poderão não perceber que a fala da assistente melhorou pelo simples fato de a voz ter ficado mais próxima dos padrões que estamos acostumados a ouvir. Ou seja, inconscientemente, encaramos a fala da assistente como algo natural, não novo.

Mas, prestando atenção, as mudanças ficam perceptíveis. Na parte final do artigo, a Apple colocou amostras de falas da Siri no iOS 9, 10 e 11. Quando você as compara, a evolução fica muito evidente. Como estamos falando de um sistema de aprendizagem, a voz da assistente deve melhorar ainda mais nos próximos meses.

Obviamente, os avanços são centrados no inglês dos Estados Unidos, mas, sim, a gente pode esperar o mesmo nível de sofisticação em outros idiomas, ainda que não de imediato.

Para quem se interessa em aprendizagem de máquina, a companhia liberou outros artigos sobre o assunto no Apple Machine Learning Journal.

Com informações: The Next Web

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Keaton
Será que não foi a voz do pessoal usando o Siri?
Lucas

A voz da Siri em português já está mais natural. Achei interessante o que mostraram na keynote, que a Siri pode falar uma palavra de três formas diferentes.

Vinícius G

"A diferença em relação aos sistemas texto-voz anteriores é que, no novo, a aprendizagem de máquina falou com vontade, com o perdão do trocadilho."

Curioso pra saber o texto que usaram pra treinar as máquinas. Será que é tipo um resumo de uma lingua, com várias frases comuns?

Lucas Galvão

Que assustador as diferenças! O_O