Um novo artigo da AI Lab Cohere, Stanford, MIT e AI2, acusa a LM Arena, a organização por trás da popular AI Crowdsourced Benchmark Chatbot Arena, de ajudar um grupo seleto de empresas de IA a alcançar melhores pontuações na placa à custa dos rivais.
Segundo os autores, a LM Arena permitiu que algumas empresas de IA líderes do setor, como Meta, Openai, Google e Amazon, testassem várias variantes de modelos de IA e não publiquem as pontuações dos artistas mais baixos. Isso tornou mais fácil para essas empresas alcançar um primeiro lugar na tabela de classificação da plataforma, embora a oportunidade não tenha sido oferecida a todas as empresas, dizem os autores.
“Apenas um punhado de empresas (empresas) foi informado de que esses testes privados estavam disponíveis e a quantidade de testes privados que algumas (empresas) recebiam é muito mais do que outras”, disse o vice-presidente de pesquisa de IA de Cohere e co-autor do estudo, Sara Hooker, em uma entrevista ao TechCrunch. “Isso é gamificação.”
Criado em 2023 como um projeto de pesquisa acadêmica da UC Berkeley, a Chatbot Arena se tornou uma referência para empresas de IA. Ele funciona colocando as respostas de dois modelos de IA diferentes lado a lado em uma “batalha” e pedindo aos usuários que escolham a melhor. Não é incomum ver modelos inéditos competindo na arena sob um pseudônimo.
Os votos ao longo do tempo contribuem para a pontuação de um modelo – e, consequentemente, sua colocação na tabela de classificação do Chatbot Arena. Enquanto muitos atores comerciais participam da Chatbot Arena, a LM Arena sustenta há muito tempo que sua referência é imparcial e justa.
No entanto, não é isso que os autores do artigo dizem que descobriram.
Uma empresa de IA, Meta, conseguiu testar particularmente 27 variantes de modelos na Chatbot Arena entre janeiro e março que antecedeu o lançamento do Llama 4 da gigante da tecnologia, alegam os autores. No lançamento, a Meta apenas revelou publicamente a pontuação de um único modelo – um modelo que ficou no topo da tabela de classificação do Chatbot Arena.
Evento do TechCrunch
Berkeley, CA.
|
5 de junho
Reserve agora
Em um email para o TechCrunch, o co-fundador da LM Arena e o professor da UC Berkeley, Ion Stoica, disse que o estudo estava cheio de “imprecisões” e “análise questionável”.
“Estamos comprometidos com avaliações justas e orientadas pela comunidade e convidamos todos os provedores de modelos a enviar mais modelos para testes e melhorar seu desempenho na preferência humana”, disse a LM Arena em comunicado fornecido à TechCrunch. “Se um provedor de modelos optar por enviar mais testes do que outro provedor de modelo, isso não significa que o segundo provedor de modelos seja tratado injustamente”.
Armand Joulin, pesquisador principal do Google Deepmind, também observou em um post sobre X que alguns dos números do estudo eram imprecisos, alegando que o Google enviou apenas um modelo Gemma 3 AI para a LM Arena para testes de pré-lançamento. Hooker respondeu a Joulin em X, prometendo que os autores fariam uma correção.
Supostamente favorecidos laboratórios
Os autores do artigo começaram a conduzir suas pesquisas em novembro de 2024, depois de saber que algumas empresas de IA estavam recebendo acesso preferencial à Chatbot Arena. No total, eles mediram mais de 2,8 milhões de batalhas de chatbot na Arena em um trecho de cinco meses.
Os autores dizem que encontraram evidências de que a LM Arena permitiu que certas empresas de IA, incluindo Meta, Openai e Google, coletassem mais dados da Chatbot Arena, fazendo com que seus modelos apareçam em um número maior de “batalhas”. Esse aumento da taxa de amostragem deu a essas empresas uma vantagem injusta, alegam os autores.
O uso de dados adicionais da LM Arena pode melhorar o desempenho de um modelo na arena, outra arena de referência LM sustenta, em 112%. No entanto, a LM Arena disse em um post no X que o desempenho difícil de arena não se correlaciona diretamente com o desempenho do Chatbot Arena.
Hooker disse que não está claro como certas empresas de IA podem ter recebido acesso prioritário, mas que é incumbente na LM Arena aumentar sua transparência, independentemente.
Em um post em X, a LM Arena disse que várias das reivindicações no artigo não refletem a realidade. A organização apontou para uma postagem de blog publicada no início desta semana, indicando que os modelos de laboratórios não-Major aparecem em mais batalhas de chatbot arena do que o estudo sugere.
Uma limitação importante do estudo é que ele se baseou na “auto-identificação” para determinar quais modelos de IA estavam em testes privados na arena do chatbot. Os autores levaram modelos de IA várias vezes sobre sua companhia de origem e confiaram nas respostas dos modelos para classificá -los – um método que não é infalível.
No entanto, Hooker disse que, quando os autores procuraram a LM Arena para compartilhar suas descobertas preliminares, a organização não as contestou.
O TechCrunch alcançou a Meta, Google, Openai e Amazon – todos mencionados no estudo – para comentar. Nenhum respondeu imediatamente.
LM Arena em água quente
No artigo, os autores chamam a LM Arena para implementar uma série de mudanças destinadas a tornar o Chatbot Arena mais “justo”. Por exemplo, dizem os autores, a LM Arena pode definir um limite claro e transparente para o número de testes privados que os laboratórios de IA podem realizar e divulgar publicamente as pontuações desses testes.
Em um post na X, a LM Arena rejeitou essas sugestões, alegando que publicou informações sobre testes de pré-lançamento desde março de 2024. A organização de benchmarking também disse que “não faz sentido mostrar pontuações para modelos de pré-lançamento que não estão disponíveis ao público”, porque a comunidade de IA não pode testar os modelos para si mesmos.
Os pesquisadores também dizem que a LM Arena pode ajustar a taxa de amostragem da Chatbot Arena para garantir que todos os modelos na arena apareçam no mesmo número de batalhas. A LM Arena foi receptiva a esta recomendação publicamente e indicou que criará um novo algoritmo de amostragem.
O jornal ocorre semanas depois que a Meta foi pega os benchmarks de jogos na Chatbot Arena em torno do lançamento de seus modelos Llama 4 acima mencionados. Meta otimizou um dos modelos LLama 4 para “conversacionalidade”, que ajudou a alcançar uma pontuação impressionante na tabela de classificação da Chatbot Arena. Mas a empresa nunca lançou o modelo otimizado – e a versão de baunilha acabou tendo um desempenho muito pior na Arena de Chatbot.
Na época, a LM Arena disse que a Meta deveria ter sido mais transparente em sua abordagem ao benchmarking.
No início deste mês, a LM Arena anunciou que estava lançando uma empresa, com planos de arrecadar capital dos investidores. O estudo aumenta o escrutínio da organização de referência privada – e se elas podem ser confiáveis para avaliar os modelos de IA sem influência corporativa nublado o processo.