Meta é acusada de manipular benchmarks de IA do Llama 4

Modelo testado foi ajustado para conversas, o que pode ter influenciado resultados. Organizadores da avaliação criticam a prática.

Giovanni Santa Rosa
• Atualizado 09/04/2025 às 10:24
Resumo
  • Meta enviou para um teste de benchmarking no LMArena uma versão do Llama 4 diferente da que foi disponibilizada ao público, segundo especialistas em IA.
  • A empresa confirmou o uso da versão experimental, afirmando que aplica esse método a diversas “variantes customizadas”.
  • O LMArena criticou a Meta pela falta de transparência e anunciou que incluirá a versão final do Llama 4 Maverick nas votações.

Especialistas em inteligência artificial observaram que a Meta enviou para um teste de benchmarking uma versão do Llama 4 diferente da que foi liberada para o público. A empresa confirma ter usado uma versão experimental, mas diz fazer o mesmo com muitas variantes customizadas.

O que a Meta fez para provocar a polêmica?

Na documentação publicada com o lançamento do Llama 4, a Meta afirma que o teste LMArena foi feito usando uma versão experimental do modelo, “otimizada para conversacionalidade”, nas palavras da própria empresa.

O resultado do Llama 4 no LMArena é muito bom: o modelo é o atual segundo colocado na pontuação Elo. Com 1.417 pontos, ele está acima do 4o da OpenAI e abaixo apenas do Gemini 2.5 Pro, do Google.

O LMArena é uma ferramenta de benchmarking de código aberto e colaborativa. Nos testes, usuários fazem uma mesma pergunta para dois modelos de IA distintos e votam em qual deu a melhor resposta. Quanto maior o número de vitórias na “arena”, maior a pontuação Elo (sim, o mesmo sistema de pontuação usado no xadrez, por exemplo).

O que a Meta diz sobre isso?

Em um email enviado ao The Verge, a Meta confirma ter usado uma versão experimental do Llama 4, mas diz que faz testes “com todos os tipos de variantes customizadas”.

A Llama-4-Maverick-03-26-Experimental é uma dessas e “também teve um bom desempenho no LMArena”, nas palavras de um porta-voz da companhia. Agora, a Meta afirma estar animada para ver o que os desenvolvedores farão com o Llama 4 de código aberto, que pode ser customizado.

O que a LMArena vai fazer a respeito?

Apesar de a Meta minimizar os questionamentos, os administradores do LMArena disseram que “a interpretação da Meta de nossas políticas não corresponde ao que esperamos dos fornecedores de modelos” e que a empresa deveria ter deixado claro que o modelo usado era otimizado.

Por isso, a versão final do Llama 4 Maverick será adicionada às votações, e os resultados devem ser divulgados em breve.

Com informações do TechCrunch, Gizmodo e The Verge

Relacionados

Escrito por

Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.