Project Adam, da Microsoft, promete reconhecer e classificar objetos em imagens com precisão

Por Emerson Alecrim

há 10 anos e 6 meses • Atualizado há 9 meses

Você vê um pássaro passeando pelo seu jardim, mas não sabe a qual espécie ele pertence. O que você faz? Tira o smartphone do bolso, aponta a câmera do dispositivo para o animal e aguarda a resposta, simples assim. Ok, parece bom demais para ser verdade, mas a Microsoft Research está trabalhando em um projeto de inteligência artificial chamado Adam que pode tornar funcionalidades como esta reais.

Buscas baseadas em fotos não são novidade. O próprio Google já suporta este tipo de pesquisa há tempos (vá ao Google Imagens e clique no ícone da câmera no campo de busca para testá-la, se você nunca o fez). Só que nenhum dos sistemas atuais é desenvolvido o suficiente para ser utilizado em larga escala.

Com o Project Adam, a Microsoft tenta avançar um passo gigantesco em relação às técnicas de reconhecimento de imagens atuais. A ideia não é apenas identificar objetos, ambientes e afins, mas também classificar e contextualizar as informações capturadas.

Em outras palavras, não basta reconhecer um cachorro em uma foto, é importante que se saiba a qual raça o animal pertence; de igual forma, não é suficiente informar que há uma escultura na imagem, mas quem é o seu autor e qual o nome da obra.

A Microsoft explica que este tipo de tecnologia poderá ter uma série de utilidades. Quando o usuário tirar a foto de um prato, por exemplo, o sistema será capaz de identificar cada alimento presente e estimar a quantidade de calorias existente ali ou informar as suas propriedades nutricionais.

Sem fazer muito esforço, nós mesmos já podemos encontrar outras aplicações: se você estiver na frente de um cinema, pode apontar o smartphone para o cartaz de um filme para saber se vale a pena assistí-lo, por exemplo.

Sendo este um projeto de inteligência artificial, você já deve ser sacado o “segredo”: o Adam utiliza um sistema de redes neurais para aprender a reconhecer padrões com o passar do tempo, tal como o faz o cérebro humano.

Mais precisamente, o Project Adam utiliza uma técnica algorítmica chamada “Deep Learning” (Aprendizagem Profunda) que analisa em níveis uma série de dados para aprender a distinguir padrões.

A Microsoft entende que o sucesso do projeto depende não só da sua precisão na identificação de imagens, como também do tempo de resposta e de sua escalabilidade. É um tanto quanto óbvio: se o Adam for uma futura função do Windows Phone, por exemplo, é necessário apresentar resultados de maneira rápida ao usuário e suportar uma grande quantidade de consultas simultâneas.

Para tanto, além de apostar em uma estrutura baseada nas nuvens, a Microsoft está implementando uma técnica assíncrona de análise de imagens. Isso significa que o sistema será capaz de dividir a carga de processamento em vários blocos e fazer com que cada parte seja executada de maneira independente da outra.

Graças a isso, o Project Adam conseguirá ser até 50 vezes mais rápido que sistemas de reconhecimento de imagem atuais e apresentar resultados duas vezes mais precisos, segundo os pesquisadores envolvidos com a iniciativa.

Na primeira fase, a Microsoft Research está preocupada justamente em fazer com que o Project Adam seja eficiente no reconhecimento. Para ser treinado, o sistema conta com uma base inicial de 14 milhões de imagens divididas em 22 mil categorias.

Na etapa seguinte, a empresa pretende aperfeiçoar a contextualização. Assim, o Adam poderá responder a perguntas relacionadas a uma foto, por exemplo. Sim, isso significa que, dependendo de seu sucesso, o Adam poderá até ser incorporado à assistente de voz Cortana. Só não sabemos quando: a própria Microsoft reconhece que a iniciativa está em fase bastante embrionária.

Com informações: Wired

Leia | O que é OCR? [Optical Character Recognition]

Relacionados

Escrito por

Emerson Alecrim

Repórter

Emerson Alecrim cobre tecnologia desde 2001 e entrou para o Tecnoblog em 2013, se especializando na cobertura de temas como hardware, sistemas operacionais e negócios. Formado em ciência da computação, seguiu carreira em comunicação, sempre mantendo a tecnologia como base. Em 2022, foi reconhecido no Prêmio ESET de Segurança em Informação. Foi reconhecido nas edições 2023 e 2024 do Prêmio Especialistas, em eletroeletrônicos. Participa do Tecnocast, já passou pelo TechTudo e mantém o site Infowester.

SPTrans libera app para recarga de Bilhete Único em smartphones com NFC Não consegue tirar fotos do seu cachorro? Tente este app