Meta anuncia IA que combina seis tipos de dados para criar ambientes virtuais

ImageBind ainda está no começo das fases de pesquisa, mas pretende relacionar texto, imagem, som, temperatura, profundidade e movimento

Por Giovanni Santa Rosa

há 1 ano e 2 meses

Grande parte dos modelos de inteligência artificial que vimos nos últimos meses, desde que o assunto ficou em evidência, são de linguagem e usam palavras como ponto de partida. A Meta está estudando fazer algo diferente: uma tecnologia chamada ImageBind, que combina seis tipos de dados.

O novo modelo de inteligência artificial usa texto também, mas vai além e engloba áudio, dados visuais, temperatura, profundidade e leituras de movimento.

A Meta acredita que o trabalho poderá, no futuro, criar uma inteligência artificial generativa de experiências multisensoriais e imersivas. Se você leu isso e pensou em metaverso, saiba que não foi o único.

O projeto está na fase inicial, de pesquisa, e não tem aplicações práticas. Mesmo assim, o código é aberto, e outros especialistas podem conhecer melhor como ele funciona.

Este ponto é interessante: como observa o Verge, OpenAI e Google compartilham muito pouco de suas tecnologias, enquanto a Meta vem fazendo o oposto e abrindo suas pesquisas.

Meta quer usar ImageBind para experiências imersivas

Falar em seis tipos de dados pode soar complicado, mas é menos do que parece. O que o ImageBind faz é relacionar todos eles, da mesma forma que outras IAs generativas.

As ferramentas para gerar imagens, por exemplo, foram treinadas com grandes conjuntos de texto e imagens. Assim, elas aprenderam a relacionar descrições a fotos, desenhos, obras de arte e mais. Com isso, elas conseguem entender o que você gostaria de criar quando digita um pedido.

O ImageBind vai além e tenta relacionar textos, imagens (estáticas e vídeos), sons, temperaturas, profundidades e movimentos.

Um dos exemplos compartilhados pela Meta mostra a relação entre uma buzina de trem, vídeos de trens chegando a uma estação, dados de profundidade que mostram a aproximação de um objeto, e descrições como “trem para em uma estação movimentada” e “o vento sopra enquanto o trem se move por uma paisagem gramada”.

Outros casos imaginados servem para ilustrar aonde a Meta quer chegar. Combinar uma imagem de pombo com barulho de motor, por exemplo, deveria trazer uma imagem das aves voando enquanto uma moto se aproxima. Já os gritos de pinguins poderiam gerar uma imagem dos animais.

A Meta não quer parar por aí. No blog post com o anúncio, a empresa diz que modelos futuros poderiam incluir toque, fala e sinais cerebrais obtidos por ressonância magnética funcional.

A ideia é que o ImageBind chegue na realidade virtual. Assim, ele poderia gerar ambientes digitais que vão além de áudio e vídeo, com movimentos e ambientação.

Parece que, mesmo investindo mais em inteligência artificial, a Meta não desistiu da ideia do metaverso.

Com informações: Meta, The Verge