Google mostra tecnologia capaz de “legendar” fotos
Há tempos que desenvolvedores do Google trabalham em tecnologias de reconhecimento e interpretação de imagens. Uma destas frentes de pesquisa foi apresentada recentemente pela companhia: trata-se de um sistema que é capaz de reconhecer objetos e, tanto quanto possível, descrever cenários em fotos.
É um diferencial e tanto porque os algoritmos atuais não vão muito longe na contextualização das imagens. O sistema do Google, no entanto, consegue “legendar” as imagens fazendo uma associação entre os elementos identificados.
No exemplo abaixo, o sistema forneceu a seguinte descrição: “two pizzas sitting on top of a stove top oven”, em tradução livre, algo como “duas pizzas colocadas em cima de um fogão”.
![Google: two pizzas sitting on top of a stove top oven](https://files.tecnoblog.net/wp-content/uploads/2014/11/pizza_google.jpg)
As descrições, às vezes, são redundantes ou falhas na identificação de uma característica ou outra. Em uma das imagens, o software descreveu “dois cachorros brincando na grama”, mas a foto mostra três.
De qualquer forma, são imperfeições que podem ser amenizadas com o tempo. Como talvez você tenha presumido, esta tecnologia é baseada em redes neurais artificiais, portanto, o sistema consegue aprender à medida que trabalha.
Mais precisamente, a tecnologia se baseia em uma variação chamada Redes Neurais Recorrentes e, mais recentemente, em um tipo denominado Redes Neurais por Convolução, que é usada com mais frequência justamente no processamento de imagens e sinais.
Uma tecnologia como esta poderá ajudar o Google a oferecer buscas de imagens mais precisas. Mas a empresa ressalta outras aplicações relevantes, entre elas, sistemas que ajudam deficientes visuais a compreenderem o contexto de um foto.