Google mostra tecnologia capaz de “legendar” fotos
Há tempos que desenvolvedores do Google trabalham em tecnologias de reconhecimento e interpretação de imagens. Uma destas frentes de pesquisa foi apresentada recentemente pela companhia: trata-se de um sistema que é capaz de reconhecer objetos e, tanto quanto possível, descrever cenários em fotos.
É um diferencial e tanto porque os algoritmos atuais não vão muito longe na contextualização das imagens. O sistema do Google, no entanto, consegue “legendar” as imagens fazendo uma associação entre os elementos identificados.
No exemplo abaixo, o sistema forneceu a seguinte descrição: “two pizzas sitting on top of a stove top oven”, em tradução livre, algo como “duas pizzas colocadas em cima de um fogão”.
As descrições, às vezes, são redundantes ou falhas na identificação de uma característica ou outra. Em uma das imagens, o software descreveu “dois cachorros brincando na grama”, mas a foto mostra três.
De qualquer forma, são imperfeições que podem ser amenizadas com o tempo. Como talvez você tenha presumido, esta tecnologia é baseada em redes neurais artificiais, portanto, o sistema consegue aprender à medida que trabalha.
Mais precisamente, a tecnologia se baseia em uma variação chamada Redes Neurais Recorrentes e, mais recentemente, em um tipo denominado Redes Neurais por Convolução, que é usada com mais frequência justamente no processamento de imagens e sinais.
Uma tecnologia como esta poderá ajudar o Google a oferecer buscas de imagens mais precisas. Mas a empresa ressalta outras aplicações relevantes, entre elas, sistemas que ajudam deficientes visuais a compreenderem o contexto de um foto.