YouTube: agora com legendas geradas automaticamente

A partir desta quarta-feira (4) o YouTube passou a tornar disponíveis legendas automáticas (auto-captioning, em inglês) a todos os usuários do YouTube. Com isso, o Google pretende tornar os vídeos mais acessíveis a deficientes auditivos e a pessoas do mundo todo que não entendem inglês.

O recurso — que estava em um beta exclusivo a usuários selecionados desde Novembro de 2009 — consiste em identificar automaticamente o que é falado no vídeo (através das tecnologias de reconhecimento de voz que o google usa no Google Voice e no Nexus One) e assim gerar automaticamente a legenda para o vídeo, mesmo que o usuário que o colocou no a não tenha adicionado nenhuma legenda. Outra possibilidade disponível assim que se gera a legenda é a de tradução automática para 50 idiomas, incluindo o português.

O recurso ainda não funciona com perfeição, principalmente se os vídeos tiverem ruídos que atrapalhem o reconhecimento (o ideal seriam vídeos com o áudio isento de ruídos e sons de fundo, contendo apenas a fala). Ainda assim, para quem é deficiente auditivo ou não entende a língua do vídeo, a transcrição é boa o suficiente para quebrar um galho.

Outra restrição do serviço é que, ao menos por hora, ele apenas transcreve a partir do áudio em inglês — aliás, eu ri bastante vendo os resultados potencialmente hilários obtidos quando o sistema tenta entender um vídeo em português, apresentando a legenda com as palavras em inglês que mais soam parecidas com o que é falado em português. Mas como o sistema roda nos servidores do Google, que claramente está investindo bastante em tecnologias de reconhecimento de voz para seus produtos, não se surpreenda se, sem aviso algum, o sistema for melhorando, passando a reconhecer melhor as palavras em inglês e até mesmo acrescentando reconhecimento de outras línguas. Na verdade, no anúncio no blog do YouTube o gerente de produto Hiroto Tokusei afirma que o Google planeja adicionar reconhecimento de fala a mais línguas nos próximos meses.

Além disso, outra vantagem o novo recurso é que o usuário que fez o upload do vídeo pode tomar uma legenda automaticamente gerada como base para criar uma legenda precisa. Basta que ele baixe a legenda automática, corrija o que estiver errado e faça o upload. Essa facilidade tem potencial para aumentar significativamente o número de vídeos com legendas precisas adicionadas pelos próprios autores, uma vez que o trabalho dos mesmos passará a ser muito menor.

A cara do Google Image Swirl

A cara do Google Image Swirl

Andam sendo dias agitados lá para o lado do Google. Além do Chrome OS a empresa discretamente anunciou que o Youtube passará a legendar filmes automaticamente, usando um sistema de reconhecimento de voz.

A novidade utiliza o mesmo algoritmo usado para reconhecer falar no Google Voice para analisar o áudio dos vídeos e transformar as palavras em texto. Apesar da empresa reconhecer que as legendas ainda não saem exatamente perfeitas, avisa que a tecnologia será “continuadamente aprimorada” para melhores resultados.

O reconhecimento de fala também promete facilitar a vida daqueles que preferem fazer suas próprias legendas, já que o recurso Auto Timming é capaz de ler o texto enviado e automaticamente sincronizá-lo com o vídeo. Por hora todas essas novidades estão disponíveis para vídeos em inglês.

Já o Google Labs liberou o Image Swirl, um recurso parecido com o Wonder Wheel, que estreou no sistema de busca há algum tempo. Nele a grande sacada é sua capacidade de agrupar imagens semelhantes e permitir que o usuário refine sua busca apenas com alguns cliques. Como todo bom protótipo, ainda não tem data para entrar no mecanismo oficial de busca.

Assista ao vídeo de apresentação do sistema de reconhecimento de voz do Youtube: