Google mostra tecnologia capaz de “legendar” fotos

há 9 anos e 8 meses • Atualizado há 3 meses

Há tempos que desenvolvedores do Google trabalham em tecnologias de reconhecimento e interpretação de imagens. Uma destas frentes de pesquisa foi apresentada recentemente pela companhia: trata-se de um sistema que é capaz de reconhecer objetos e, tanto quanto possível, descrever cenários em fotos.

É um diferencial e tanto porque os algoritmos atuais não vão muito longe na contextualização das imagens. O sistema do Google, no entanto, consegue “legendar” as imagens fazendo uma associação entre os elementos identificados.

No exemplo abaixo, o sistema forneceu a seguinte descrição: “two pizzas sitting on top of a stove top oven”, em tradução livre, algo como “duas pizzas colocadas em cima de um fogão”.

Google: two pizzas sitting on top of a stove top oven

As descrições, às vezes, são redundantes ou falhas na identificação de uma característica ou outra. Em uma das imagens, o software descreveu “dois cachorros brincando na grama”, mas a foto mostra três.

De qualquer forma, são imperfeições que podem ser amenizadas com o tempo. Como talvez você tenha presumido, esta tecnologia é baseada em redes neurais artificiais, portanto, o sistema consegue aprender à medida que trabalha.

Google: imagens reconhecidas pela tecnologia, incluindo as erradas

Mais precisamente, a tecnologia se baseia em uma variação chamada Redes Neurais Recorrentes e, mais recentemente, em um tipo denominado Redes Neurais por Convolução, que é usada com mais frequência justamente no processamento de imagens e sinais.

Uma tecnologia como esta poderá ajudar o Google a oferecer buscas de imagens mais precisas. Mas a empresa ressalta outras aplicações relevantes, entre elas, sistemas que ajudam deficientes visuais a compreenderem o contexto de um foto.

O estudo detalhado foi publicado nesta página.