Gemini, Veo, Imagen e mais: todas as novidades de IA no Google I/O

Evento do Google é realizado nos Estados Unidos. Empresa apresenta diversas ferramentas ligadas à inteligência artificial.

Thássius Veloso
Por
Marca "G" do Google
Google investe em inteligência artificial há mais de uma década, Sundar Pichai disse no Google I/O 2024 (Ilustração: Vitor Pádua/Tecnoblog)

O Google anunciou uma nova versão da inteligência artificial Gemini: o Gemini 1.5 Flash é mais leve e eficaz para aplicações multimodais, de acordo com a gigante da tecnologia. E esta não é a única novidade do Google I/O 2024, evento realizado a partir desta terça-feira (dia 14/05) nos Estados Unidos.

Numa conversa prévia com jornalistas, da qual eu participei, o CEO Sundar Pichai ressaltou que o Google investe em inteligência artificial há mais de uma década. “Temos muitas oportunidades diante de nós”, disse o executivo num momento em que analistas do mercado se perguntam se a empresa tem condições de competir com o ChatGPT e outras tecnologias recentes.

Homem sobre palco
Sundar Pichai anuncia que mais de 1,5 milhão de programadores usam Gemini (Imagem: Reprodução/Google)

No evento, o Google ainda anunciou que a busca terá respostas por IA nos Estados Unidos e apresentou o Projeto Astra, a IA que tudo vê e se lembra das coisas.

Gemini 1.5 Flash

O Google I/O 2024 é a prova de que o Google está se movimentando para responder à alta expectativa.

Tanto que o Gemini 1.5 Flash e o Gemini 1.5 Pro contam com janela de contexto de 1 milhão de tokens. Este número dá uma dimensão da capacidade de o modelo lidar com prompts e tarefas complexas. A título de comparação, o Claude chega a 200 mil tokens, enquanto o GPT-4 vai a 128 mil tokens e o aplicativo do Gemini, a 32 mil tokens.

Homem no palco
Gemini 1.5 Pro chegará a 2 milhões de tokens (Imagem: Reprodução/Google)

Sundar disse que o Gemini 1.5 Pro alcançará a marca de 2 milhões de tokens até o fim do ano. O executivo não especificou uma data.

Os variados modelos são capazes de lidar com tarefas de tradução, diálogo, programação, lógica e escrita. No caso da versão Flash, a proposta é realizar resumos, conversas (como chatbot), legenda de fotos e de vídeos, e extração de longos documentos ou tabelas. “Isso é possível porque treinamos o Flash a partir do Gemini 1.5 Pro pelo processo chamado de distilação”, em que o conhecimento de um modelo maior (professor) é repassado para um modelo menor (aluno) preservando as informações mais importantes.

Outros sabores do Gemini

O modelo Gemini 1.5 Pro também foi melhorado. O Google destaca em especial a capacidade de programação, o raciocínio lógico e a capacidade de manter longas conversas com idas e vindas. Ele será liberado primeiro para os assinantes do Gemini Advanced, plano integrado ao Google One com mais recursos de IA.

Homem no palco, ao lado de telão
Inteligência artificial multimodal é um dos destaques do evento I/O 2024 (Imagem: Reprodução/Google)

Os assinantes poderão enviar arquivos do Google Drive ou anexá-los a partir do dispositivo, para que a IA consiga consumidor o conteúdo e gerar as respostas solicitadas. O Google disse que os arquivos são mantidos em sigilo e não são usados para treinar modelos de inteligência artificial.

Já o Gemini 1.0 Nano, considerado o modelo mais leve da companhia, passará a também compreender imagens. Hoje em dia, ele está limitado a texto puro. A novidade chega primeiro aos celulares da linha Google Pixel. Precisaremos acompanhar para descobrir se fabricantes de maior revelo, como Samsung e Motorola, irão embarcar a ferramenta em seus smartphones.

Gemma 2

Os modelos da linha Gemini são proprietários. Isso significa que as empresas e desenvolvedores interessados neles precisam de um acordo com o Google, que normalmente passa pelo uso a partir de APIs num serviço de nuvem. Por sua vez, o Google mantém o Gemma, modelo aberto, nos mesmos moldes do Llama 3 (Meta), Phi-3 (Microsoft) e Grok (X/Twitter).

Nesta terça-feira, o Google revelou a atualização para o Gemma 3, que ganhou uma nova arquitetura. Diz a empresa que o LLM está mais rápido e eficiente. Ele será liberado em vários tamanhos, cujos detalhes não foram inicialmente apresentados.

Imagen 3 e Veo

Homem no palco. O telão traz várias fotografias geradas por IA.
Imagen 3 é apresentado durante I/O 2024 (Imagem: Reprodução/Google)

Para além dos modelos de linguagem, o Google apresentou a ferramenta de geração de vídeos Veo e uma nova versão da ferramenta de geração de imagens Imagen.

O Veo é capaz de criar vídeos com alta resolução (Full HD) e e duração superior a 1 minuto. De acordo com a empresa, a ferramenta segue variados estilos visuais. O Google promete uma proficiência impressionante na capacidade de compreender o tom e a visão criativa do diretor. Parte disso se deve aos prompts mais longos.

Ainda segundo a empresa, o Veo lida bem com instruções do tipo “timelapse” ou “imagens aéreas da paisagem” e gera pessoas, animais e objetos que “se movimentam de forma realística nas gravações”.

A ferramenta Imagen já é conhecida nossa. Agora ela chega à geração 3 com melhorias na qualidade e fidelidade da geração de imagens. O Google afirma que os usuários terão imagens igualmente fiéis à realidade. O Imagen 3 será até mesmo capaz de colocar palavras e frases nas figuras, o que tem sido uma dor de cabeça até agora (quem usa o Dall-3 sabe do que estou falando).

Relacionados