No início desta semana, a Meta aterrissou em água quente para usar uma versão experimental e não lançada de seu modelo de lhama 4 Maverick para obter uma pontuação alta em um benchmark de crowdsourced, LM Arena. O incidente levou os mantenedores da LM Arena a se desculparem, mudarem suas políticas e marcar o baunilha não modificado.
Acontece que não é muito competitivo.
O Maverick não modificado, “LLAMA-4-MAVERICK-17B-128E-INSTRUTO”, foi classificado abaixo de modelos, incluindo o GPT-4O do Openai, o claude 3,5 Sonnet do Anthropal e o Gemini 1.5 Pro do Google na sexta-feira. Muitos desses modelos têm meses.
A versão de lançamento do Llama 4 foi adicionada a Lmarena depois que foi descoberto que eles trapacearam, mas você provavelmente não o viu porque precisa rolar para baixo para o 32º lugar, que é onde está as classificações pic.twitter.com/a0bxkdx4lx
– p: ɡsn (@pigeon__s) 11 de abril de 2025
Por que o mau desempenho? O Maverick Experimental de Meta, LLAMA-4-MAVERICK-03-26-SPIGERAL, foi “otimizado para a conversacionalidade”, explicou a empresa em uma parada publicada no último sábado. Essas otimizações evidentemente jogaram bem com a LM Arena, que possui os avaliadores humanos comparam os resultados dos modelos e escolhem o que eles preferem.
Como escrevemos antes, por vários motivos, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. Ainda assim, adaptar um modelo para uma referência – além de ser enganoso – torna desafiador para os desenvolvedores prever exatamente o desempenho do modelo em diferentes contextos.
Em um comunicado, um porta -voz disse ao TechCrunch que meta experimentos com “todos os tipos de variantes personalizadas”.
“‘LLAMA-4-MAVERICK-03-26-experimental’ é uma versão otimizada do bate-papo que experimentamos que também tem um bom desempenho na LM Arena”, disse o porta-voz. “Agora lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o LLAMA 4 para seus próprios casos de uso. Estamos empolgados em ver o que eles construirão e aguardarão seus comentários contínuos”.