Meio Bit » Mobile » Sistema de reconhecimento de voz offline do Google é mais ligeiro que o online

Sistema de reconhecimento de voz offline do Google é mais ligeiro que o online

Sistema do Google é leve, relativamente preciso e dispensa conexão de dados para executar comandos e funções de ditado, entre outras aplicações simples

8 anos atrás

ok-google

O Google pode ter uma série de soluções práticas que facilitam bastante o nosso dia-a-dia, mas sempre há espaço para melhorar. Por exemplo, o sistema de reconhecimento de voz é rápido e bastante útil, mas como ele depende da nuvem ele nem sempre pode ser tão ligeiro quanto deveria.

Por isso o Google está brincando com um novo sistema que é mais rápido que o atual e leve o bastante para funcionar completamente offline.

Hoje a grande parte dos serviços do Android dependem de processamento em servidores online. No caso de voz, solicitações mais complexas dependem da conexão de dados do usuário a fim de enviar o áudio, reconhecer a fala, processar a solicitação e  retornar o resultado da busca. Embora todo o processo seja bem rápido, alto índices de latência e mesmo falhas na busca são comuns quando a conexão não é minimamente decente.

Qual a solução? Processar tudo localmente. O objetivo da pesquisa (cuidado, PDF) é desenvolver um sistema leve o bastante para que ele possa ser executado localmente e não dependa de uma conexão de dados para processas as requisições, e por causa disso ele acabaria por ser “mais rápido que o tempo real”. O programa, que pesa impressionantes 20,3 MB utiliza aprendizado de máquina para processar corretamente o áudio, tais como LSTM (Memória de Curto e Longo Prazo) e RNN (Rede Neural Recorrente).

O sistema foi implantado num Nexus 5, um smartphone Android relativamente decente (em 2013 ele era top) com SoC Snapdragon 800 com clock de 2,26 GHz e 2 GB de RAM, obviamente sem acesso à internet. E o software conseguiu uma taxa de erro de cerca de 13,5% em função ditado, sem texto predefinido. Velocidade? Sete vezes mais rápido que a média.

O sistema foi totalmente desenhado para dar conta de tudo sozinho, porém transcrição exata demanda mais dados. Hoje como está o sistema consegue dar conta de comandos e requisições simples, já ações mais complexas, também previstas precisam de algumas coisinhas a mais: por exemplo, o sistema online de voz do Google forneceu duas mil horas de dados na forma de três milhões de conversações de modo a treinar o algoritmo e amostras de áudio do YouTube também foram utilizadas. Técnicas adicionais de compressão foram utilizadas para deixar o programa o menor possível, de modo a permitir que praticamente qualquer Android o execute sem engasgos. Só que tudo isso tem um custo: o tamanho do sistema salta para em torno de 100 MB.

Claro que esse ainda é um trabalho em progresso, mas desde já parece promissor: um sistema que não precise processar todas as requisições de voz na nuvem pode oferecer um ganho de performance considerável para o Android.

Fonte: ZDNet.

relacionados


Comentários