Redes neurais ajudaram a reduzir em 50% os erros de transcrição do Google Voice

há 8 anos e 8 meses • Atualizado há 3 semanas

O Google sempre utilizou algum tipo de inteligência artificial em seus serviços, mas, nos últimos anos, as chamadas redes neurais ganharam ainda mais espaço na companhia. Um exemplo foi dado nesta terça-feira (11): a empresa explicou como as redes neurais ajudaram a reduzir significativamente a quantidade de erros do Google Voice.

Dá para resumir o Google Voice como um serviço de telefonia online. Uma das funções oferecidas (pelo menos nos países de língua inglesa) é a transcrição de mensagens: você recebe um correio de voz de um amigo, por exemplo, e a ferramenta o transforma em texto.

Essa função tem diversas utilidades, mas esbarrava em um problema: não raramente, as transcrições apresentavam tantos erros que era simplesmente impossível compreender a mensagem. Para amenizar o problema, o Google teve que refazer o sistema de transcrição.

A primeira mudança foi executada em 2012, quando a empresa passou a utilizar redes neurais de aprendizagem profunda, um tipo que, essencialmente, trabalha com várias camadas de “neurônios” e, portanto, pode fazer associação entre diversos parâmetros. Essa técnica melhorou bastante os mecanismos de reconhecimento de fala.

Mas o Google explica que as coisas só melhoraram de verdade algum tempo depois com a implementação de redes neurais recorrentes no padrão LSTM (Long Short Term Memory). Esse tipo, basicamente, conta com conexões em ciclos e células de memória que permitem à rede “lembrar” de dados analisados anteriormente.

Redes neurais precisam de um volume considerável de dados para aprender. O Google até poderia ter utilizado as transcrições feitas com o algoritmo antigo, mas essa base de dados já estava “contaminada” com diversos erros de reconhecimento. A companhia teve então que contar com a ajuda dos usuários do Voice: milhares deles aceitaram disponibilizar suas mensagens com base na promessa do Google de que esse conteúdo seria utilizado unicamente para treinamento do sistema.

Com esse volume de mensagens, os engenheiros do Google puderam submeter os algoritmos a vários modelos de reconhecimento acústico e de linguagem. Um deles foi empregado para amenizar falhas de pontuação, por exemplo. Antes, o Google Voice fazia coisas como transcrever a frase “Eu recebi a mensagem que você me deixou” como “Eu recebi a mensagem. Você me deixou”. Já imaginou a confusão?

Felizmente, as redes neurais deram resultado. Após várias “rodadas” de treinamento, muitas das quais repetidas (executadas com os mesmos dados), a aprendizagem fez o Google Voice diminuir a quantidade de erros em praticamente 50%.

Os avanços não devem terminar por aí. Os algoritmos continuam aprendendo e, claro, o Google mantém os esforços para aperfeiçoar a ferramenta. Esse é o tipo de serviço que exige trabalho contínuo.

Vale destacar que o Voice não é o único exemplo recente de como as redes neurais estão fazendo a diferença no Google. No final do mês passado, a companhia revelou como a ideia tornou o Google Tradutor mais inteligente nas traduções a partir de imagens.

Relacionados