Já reparou que, ao contrário do Google e da Microsoft, a Apple não costuma dar detalhes sobre o funcionamento de suas tecnologias? Mas, às vezes, a companhia deixa a discrição de lado: recentemente, a equipe responsável pela Siri divulgou um artigo que mostra como a aprendizagem de máquina ajudou a voz da assistente a soar mais natural aos nossos ouvidos.
As vozes que escutamos de assistentes virtuais, ferramentas de tradução, aplicativos de mapas e outros serviços normalmente são oriundas de horas e mais horas de gravações com humanos. As falas são cortadas, niveladas e editadas de várias formas para termos a impressão de que há algo de realmente humano ali.
Só que a gente sempre percebe que a voz é robotizada, digamos assim, pois os desenvolvedores não conseguem aplicar nela os padrões de pronúncia, estresse e entonação que são inerentes a cada idioma.
No iOS 11 (a ser liberado publicamente nas próximas semanas), a Apple quis deixar a Siri longe dessa limitação, tanto quanto possível. O primeiro passo consistiu em fazer testes com centenas de pessoas para encontrar a melhor voz. Com o vocal feminino escolhido, o passo seguinte foi a gravação de mais de 20 horas de fala. Esse trabalho levou à criação de um sistema texto-voz (TTS, na sigla em inglês).
A diferença em relação aos sistemas texto-voz anteriores é que, no novo, a aprendizagem de máquina falou com vontade, com o perdão do trocadilho. As horas gravadas geraram centenas de milhares de segmentos de áudio que serviram de base para o treinamento: o TTS aprendeu a selecionar os fragmentos que se combinam para criar respostas que soam naturais.
Um detalhe curioso é que mesmo os usuários que interagem com mais frequência com a Siri poderão não perceber que a fala da assistente melhorou pelo simples fato de a voz ter ficado mais próxima dos padrões que estamos acostumados a ouvir. Ou seja, inconscientemente, encaramos a fala da assistente como algo natural, não novo.
Mas, prestando atenção, as mudanças ficam perceptíveis. Na parte final do artigo, a Apple colocou amostras de falas da Siri no iOS 9, 10 e 11. Quando você as compara, a evolução fica muito evidente. Como estamos falando de um sistema de aprendizagem, a voz da assistente deve melhorar ainda mais nos próximos meses.
Obviamente, os avanços são centrados no inglês dos Estados Unidos, mas, sim, a gente pode esperar o mesmo nível de sofisticação em outros idiomas, ainda que não de imediato.
Para quem se interessa em aprendizagem de máquina, a companhia liberou outros artigos sobre o assunto no Apple Machine Learning Journal.
Com informações: The Next Web