O modelo de baunilha de baunilha de Meta está abaixo dos rivais em um benchmark de bate -papo popular

No início desta semana, a Meta aterrissou em água quente para usar uma versão experimental e não lançada de seu modelo de lhama 4 Maverick para obter uma pontuação alta em um benchmark de crowdsourced, LM Arena. O incidente levou os mantenedores da LM Arena a se desculparem, mudarem suas políticas e marcar o baunilha não modificado.

Acontece que não é muito competitivo.

O Maverick não modificado, “LLAMA-4-MAVERICK-17B-128E-INSTRUTO”, foi classificado abaixo de modelos, incluindo o GPT-4O do Openai, o claude 3,5 Sonnet do Anthropal e o Gemini 1.5 Pro do Google na sexta-feira. Muitos desses modelos têm meses.

Por que o mau desempenho? O Maverick Experimental de Meta, LLAMA-4-MAVERICK-03-26-SPIGERAL, foi “otimizado para a conversacionalidade”, explicou a empresa em uma parada publicada no último sábado. Essas otimizações evidentemente jogaram bem com a LM Arena, que possui os avaliadores humanos comparam os resultados dos modelos e escolhem o que eles preferem.

Como escrevemos antes, por vários motivos, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. Ainda assim, adaptar um modelo para uma referência – além de ser enganoso – torna desafiador para os desenvolvedores prever exatamente o desempenho do modelo em diferentes contextos.

Em um comunicado, um porta -voz disse ao TechCrunch que meta experimentos com “todos os tipos de variantes personalizadas”.

“‘LLAMA-4-MAVERICK-03-26-experimental’ é uma versão otimizada do bate-papo que experimentamos que também tem um bom desempenho na LM Arena”, disse o porta-voz. “Agora lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o LLAMA 4 para seus próprios casos de uso. Estamos empolgados em ver o que eles construirão e aguardarão seus comentários contínuos”.

Veja também