Início » Inteligência Artificial » Inteligência artificial do Google consegue separar vozes em uma multidão

Inteligência artificial do Google consegue separar vozes em uma multidão

Victor Hugo Silva Por

A inteligência artificial do Google já é bastante avançada em se tratando de imagens. Ela é capaz de tirar fotos e editá-las sem a ajuda de ninguém. Agora, ela também está sendo treinada para esclarecer o que está sendo dito em um vídeo com muitas pessoas falando ao mesmo tempo.

O sistema é capaz de isolar diferentes vozes somente ao focar no rosto das pessoas. Para chegar a esse ponto, os pesquisadores fizeram a IA reconhecer falas individuais em cerca de 100 mil vídeos. O processo resultou em duas mil horas de falas sem a interferência de músicas, auditórios ou outros indivíduos.

Em seguida, houve a simulação de um cenário em que esses vídeos foram reproduzidos ao mesmo tempo. Para dificultar o trabalho, os pesquisadores também incluíram um ruído sem fala ao fundo. A tarefa era ensinar a inteligência artificial a isolar as vozes em diferentes faixas de áudio.

A técnica combina sinais sonoros e visuais para separar a fala. "Os movimentos da boca de uma pessoa, por exemplo, devem se correlacionar com os sons produzidos enquanto ela está falando", explicam os pesquisadores.

O Google diz que está "explorando as oportunidades" para aplicar esta ferramenta. Ela poderá ser usada em serviços como Hangouts e Duo. O objetivo é permitir que os usuários escutem melhor uma pessoa que está em um local barulhento, como no vídeo abaixo:

Outro vídeo mostra que a ferramenta também consegue separar as vozes quando um auditório é responsável pelo barulho ao fundo:

Além do desenvolvimento, o Google também terá que lidar com questões relacionadas à privacidade. A depender do avanço, um sistema como esse poderia ser usado para espionar conversas de terceiros em um ambiente público, por exemplo.

Com informações: Google, Engadget, Android Police.

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Ernane Lopes

Nossa, é de encher os olhos de quem é amante de tecnologia.

Henrique Dias

Onde eu tô ?

Carlin

Cara embarcar esse software em links de transmissões ao vivo de show ou locais com grandes movimentação, será um diferencial excepcional!

Daniel R. Pinheiro

Internet/tecnologia e privacidade não combinam. Infelizmente é uma realidade, dura de aceitar.

Seraph

Só falta fazer sumir de vez o Captcha

Ricardo - Vaz Lobo

O governo chino consegue achar um camarada sonegador no meio de 60mil pessoas num show.
Já Google encontra um infeliz pela voz no meio da turba.
O Facebook captura todas as idiotices que teclam nos seus apps.
E eu ainda não sei porquê me preocupo com minha suposta privacidade.

Jonas S. Marques

O isolamento que a IA fez do áudio é absurdo. É quase um trabalho de um bom engenheiro de som. Que assustador.