Início » Inteligência Artificial » A inteligência artificial já faz leitura labial bem melhor que os humanos

A inteligência artificial já faz leitura labial bem melhor que os humanos

Paulo Higa Por

Leitura labial não é fácil, mas a inteligência artificial está tornando a tarefa menos complexa. Pesquisadores da Universidade de Oxford desenvolveram um sistema que assiste a uma pessoa mexendo a boca e descobre o que estava sendo pronunciado com precisão de 93,4%. Nas mesmas condições, os humanos só acertaram em 52,3% dos casos.

lipnet-leitura-labial-ia

O sistema se chama LipNet e foi construído com a ajuda do DeepMind, do Google. Eles treinaram a rede neural com cerca de 29 mil vídeos de três segundos e falas conhecidas. Depois, compararam a precisão de leitura labial entre pessoas e LipNet com 300 vídeos aleatórios para concluir que os computadores são bem superiores aos pobres seres humanos.

Segundo a Quartz, o LipNet está melhor que um sistema antigo de leitura labial, que tinha precisão de 79,6% (o que já superior aos humanos). A tecnologia anterior tentava decifrar palavra por palavra, enquanto a desenvolvida pelos pesquisadores de Oxford aproveita a inteligência artificial para montar frases inteiras de uma vez só, aumentando a eficácia.

Mas espere: esses vídeos de três segundos são meio, ahn… fáceis, como você pode ver na demonstração acima. E você pode argumentar que a inteligência artificial estava trapaceando, porque todas as frases seguiam um padrão: elas continham um verbo, uma cor, uma preposição, uma letra, um número (de 1 a 10) e um advérbio.

Tudo bem: outro projeto de leitura labial, também da Universidade de Oxford, treinou a inteligência artificial com vídeos mais reais. Eles pegaram 5.000 horas de conteúdo de televisão da BBC, com um total de 118 mil sentenças mais complicadas, incluindo “Sabemos que haverá centenas de jornalistas aqui também” e “De acordo com os últimos dados do Office for National Statistics”.

ia-leitura-labial

Com esses vídeos, a inteligência artificial acertou apenas 46,8% das falas sem nenhum erro, um número bem menos impressionante — no entanto, os profissionais humanos só atingiram uma taxa de 12,4%, então a máquina ainda está (muito) na frente. De acordo com a New Scientist, vários erros da IA eram pequenos, como esquecer um “s” no final de uma palavra, por exemplo.

Segundo os pesquisadores, a leitura labial com inteligência artificial tem mais utilidade do que descobrir o que o Tite estava gritando no jogo da Seleção; ela pode servir para construir aparelhos auditivos mais eficientes, permitir que você utilize um assistente pessoal ditando em silêncio (afinal, quase ninguém gosta de usar a Siri em público) e desenvolver sistemas de reconhecimento de fala para ambientes barulhentos.

The Next Big Thing

No Tecnocast 044, discutimos os usos e aplicações da inteligência artificial. Será que ela consegue ir tão longe como imaginamos? Quão rápida a inteligência artificial pode evoluir, exatamente? Também explicamos como ela funciona e quais empresas têm as melhores tecnologias. Vale apertar o play!

044