Com nova técnica do MIT, qualquer objeto pode virar um “microfone”

há 9 anos e 8 meses • Atualizado há 2 semanas

Olhe bem para os objetos que estão ao seu redor. Você acreditaria se alguém lhe dissesse que todos eles podem ser “transformados em microfones”, ainda que precariamente? Pois saiba que cientistas do MIT, em parceria com pesquisadores da Microsoft e da Adobe, fizeram um estudo para comprovar que esta possibilidade é tão real que serve de base para uma ideia agora não tão futurista: recriar áudio a partir de imagens de vídeos.

Técnica de extração de áudio a partir de vídeos

O principal ingrediente da conclusão é o movimento que a superfície do objeto produz ao ser atingida por uma onda sonora. Esta vibração cria um sinal tão discreto que não pode ser percebido pelos nossos olhos, razão pela qual os pesquisadores utilizaram uma câmera capaz de registrar entre 2 mil e 6 mil frames por segundo para “enxergar” o fenômeno. Para você ter noção do que estes números representam, a maioria dos smartphones atuais faz vídeos com até 30 frames por segundo.

Nos testes, o equipamento conseguiu gravar a ação de sons sobre a superfície de vários itens. Em um dos experimentos mais impressionantes, a câmera ficou do lado de fora do ambiente em que um discurso estava sendo reproduzido, mas conseguiu captar a vibração oriunda de um simples pacote de batatas fritas deixado ali.

Na etapa seguinte, os pesquisadores utilizaram um algoritmo para analisar cada frame e converter a informação correspondente às vibrações em sons que podem ser reproduzidos por um computador. Os resultados foram assombrosos: no caso do pacote de batatas, o discurso foi recriado com falhas, mas possibilitou o entendimento de várias das palavras pronunciadas.

Em outro teste, uma música foi reproduzida no ambiente em que estava uma planta. No processo de recriação do áudio, o conteúdo resultante da filmagem das folhas apresentou chiados e outras falhas, mas nenhum destes problemas impediu a identificação da melodia.

O vídeo a seguir mostra estes e outros experimentos:

Como dá para perceber, a técnica permite reconstruir o áudio de gravações a partir da análise de conteúdo visual. É uma ideia fabulosa, mas assustadora se pararmos para raciocinar sobre as suas aplicações.

Imagine, por exemplo, uma câmera de longo alcance no prédio vizinho apontando para um vaso de plantas que está em sua mesa, mas é visível pela janela. Não é perturbador pensar que alguém pode descobrir tudo o que foi conversado ali com a simples filmagem do inofensivo objeto, dispensando qualquer tipo de microfone?

Quem teme pela sua privacidade ficará ainda mais preocupado ao descobrir que a técnica pode ser modificada ligeiramente para funcionar com câmeras mais simples, como aquelas que trabalham com até 60 frames por segundo.

As câmeras que geram vídeos com milhares de frames por segundo são importantes porque o algoritmo utiliza uma bateria de filtros para identificar toda e qualquer mudança na imagem em relação à anterior e, assim, identificar padrões correspondentes às vibrações. Uma linha de pixels que era azul em um frame, ficou no vermelha na imagem seguinte e voltou à cor original na sequência, ajuda a indicar o movimento de uma borda, por exemplo.

Quanto mais frames, mais precisa tende a ser a reconstrução do áudio, mas mesmo um conjunto consideravelmente menor de imagens sequenciais pode permitir a formação do som, ainda que com resultados muito pobres.

Não é de se estranhar, portanto, que os pesquisadores tentem ressaltar o lado positivo da pesquisa afirmando que a técnica será especialmente útil em aplicações forenses, por exemplo.

Você pode saber mais sobre o assunto e conferir outras demonstrações no site da pesquisa.