Siri

Já reparou que, ao contrário do Google e da Microsoft, a Apple não costuma dar detalhes sobre o funcionamento de suas tecnologias? Mas, às vezes, a companhia deixa a discrição de lado: recentemente, a equipe responsável pela Siri divulgou um artigo que mostra como a aprendizagem de máquina ajudou a voz da assistente a soar mais natural aos nossos ouvidos.

As vozes que escutamos de assistentes virtuais, ferramentas de tradução, aplicativos de mapas e outros serviços normalmente são oriundas de horas e mais horas de gravações com humanos. As falas são cortadas, niveladas e editadas de várias formas para termos a impressão de que há algo de realmente humano ali.

Só que a gente sempre percebe que a voz é robotizada, digamos assim, pois os desenvolvedores não conseguem aplicar nela os padrões de pronúncia, estresse e entonação que são inerentes a cada idioma.

No iOS 11 (a ser liberado publicamente nas próximas semanas), a Apple quis deixar a Siri longe dessa limitação, tanto quanto possível. O primeiro passo consistiu em fazer testes com centenas de pessoas para encontrar a melhor voz. Com o vocal feminino escolhido, o passo seguinte foi a gravação de mais de 20 horas de fala. Esse trabalho levou à criação de um sistema texto-voz (TTS, na sigla em inglês).

A diferença em relação aos sistemas texto-voz anteriores é que, no novo, a aprendizagem de máquina falou com vontade, com o perdão do trocadilho. As horas gravadas geraram centenas de milhares de segmentos de áudio que serviram de base para o treinamento: o TTS aprendeu a selecionar os fragmentos que se combinam para criar respostas que soam naturais.

Um detalhe curioso é que mesmo os usuários que interagem com mais frequência com a Siri poderão não perceber que a fala da assistente melhorou pelo simples fato de a voz ter ficado mais próxima dos padrões que estamos acostumados a ouvir. Ou seja, inconscientemente, encaramos a fala da assistente como algo natural, não novo.

Mas, prestando atenção, as mudanças ficam perceptíveis. Na parte final do artigo, a Apple colocou amostras de falas da Siri no iOS 9, 10 e 11. Quando você as compara, a evolução fica muito evidente. Como estamos falando de um sistema de aprendizagem, a voz da assistente deve melhorar ainda mais nos próximos meses.

Obviamente, os avanços são centrados no inglês dos Estados Unidos, mas, sim, a gente pode esperar o mesmo nível de sofisticação em outros idiomas, ainda que não de imediato.

Para quem se interessa em aprendizagem de máquina, a companhia liberou outros artigos sobre o assunto no Apple Machine Learning Journal.

Com informações: The Next Web

Receba mais notícias do Tecnoblog na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Emerson Alecrim

Emerson Alecrim

Repórter

Emerson Alecrim cobre tecnologia desde 2001 e entrou para o Tecnoblog em 2013, se especializando na cobertura de temas como hardware, sistemas operacionais e negócios. Formado em ciência da computação, seguiu carreira em comunicação, sempre mantendo a tecnologia como base. Em 2022, foi reconhecido no Prêmio ESET de Segurança em Informação. Em 2023, foi reconhecido no Prêmio Especialistas, em eletroeletrônicos. Participa do Tecnocast, já passou pelo TechTudo e mantém o site Infowester.

Relacionados