Os laboratórios de IA estão cada vez mais dependendo de plataformas de benchmarking de crowdsourcing, como a Chatbot Arena, para investigar os pontos fortes e fracos de seus modelos mais recentes. Mas alguns especialistas dizem que existem sérios problemas com essa abordagem de uma perspectiva ética e acadêmica.
Nos últimos anos, laboratórios, incluindo OpenAI, Google e Meta, se voltaram para plataformas que recrutam usuários para ajudar a avaliar os recursos dos próximos modelos. Quando um modelo pontua favoravelmente, o laboratório por trás dele geralmente divulga essa pontuação como evidência de uma melhoria significativa.
É uma abordagem falha, no entanto, de acordo com Emily Bender, professora de linguística da Universidade de Washington e co-autora do livro “The Ai Con”. Bender leva um problema específico na Chatbot Arena, que encarrega os voluntários de solicitar dois modelos anônimos e selecionar a resposta que eles preferem.
“Para ser válido, uma referência precisa medir algo específico e precisa ter validade de construção-ou seja, deve haver evidências de que o construto de interesse seja bem definido e que as medições realmente se relacionam com o construto”, disse Bender. “O Chatbot Arena não mostrou que votar em uma produção sobre outra se correlaciona com as preferências, mas elas podem ser definidas”.
Asmelash Teka Hadgu, co-fundador da empresa de IA Lesan e bolsista do Instituto de Pesquisa Distribuído da IA, disse que acha que os benchmarks como o Chatbot Arena estão sendo “cooptados” pela AI Labs para “promover reivindicações exageradas”. Hadgu apontou para uma controvérsia recente envolvendo o modelo Maverick de Llama 4 da Meta. Meta ajustou uma versão do Maverick para marcar bem na Arena Chatbot, apenas para reter esse modelo em favor de lançar uma versão de pior desempenho.
“Os benchmarks devem ser dinâmicos e não estáticos de dados”, disse Hadgu, “distribuído por várias entidades independentes, como organizações ou universidades, e adaptadas especificamente a casos de uso distintos, como educação, saúde e outros campos feitos por praticantes de profissionais que usam esses (modelos) para o trabalho”.
Hadgu e Kristine Gloria, que anteriormente lideraram a iniciativa de tecnologias emergentes e inteligentes do Aspen Institute, também defendem que os avaliadores de modelos deveriam ser compensados por seu trabalho. Gloria disse que os laboratórios de IA devem aprender com os erros da indústria de rotulagem de dados, o que é notório por suas práticas exploradoras. (Alguns laboratórios foram acusados do mesmo.)
“Em geral, o processo de benchmarking de crowdsourced é valioso e me lembra iniciativas de ciências cidadãs”, disse Gloria. “Idealmente, ajuda a trazer perspectivas adicionais para fornecer alguma profundidade na avaliação e no ajuste fino dos dados. Mas os benchmarks nunca devem ser a única métrica para avaliação. Com a indústria e a inovação se movendo rapidamente, os benchmarks podem se tornar rapidamente não confiáveis.”
Matt Frederikson, CEO da Grey Swan AI, que administra campanhas de equipes de crowdsourcing Red em equipes para modelos, disse que os voluntários são atraídos pela plataforma de Grey Swan por vários motivos, incluindo “aprender e praticar novas habilidades”. (Grey Swan também concede prêmios em dinheiro para alguns testes.) Ainda assim, ele reconheceu que os benchmarks públicos “não são um substituto” para avaliações “pagas privadas”.
“(D) Os evlopers também precisam confiar em benchmarks internos, equipes vermelhas algorítmicas e contraísados com equipes vermelhas que podem adotar uma abordagem mais aberta ou trazer conhecimento de domínio específico”, disse Frederikson. “É importante para desenvolvedores de modelos e criadores de referência, crowdsourcing ou não, comunicar os resultados claramente àqueles que seguem e respondem quando são questionados”.
Alex Atallah, CEO da Model Marketplace OpenRouter, que recentemente fez parceria com o Openai para conceder aos usuários acesso antecipado aos modelos GPT-4.1 da OpenAI, disseram testes abertos e benchmarking de modelos sozinhos “não é suficiente”. O mesmo aconteceu com Wei-Lin Chiang, um estudante de doutorado da UC Berkeley e um dos fundadores da Lmarena, que mantém a Chatbot Arena.
“Certamente apoiamos o uso de outros testes”, disse Chiang. “Nosso objetivo é criar um espaço aberto e confiável que mede as preferências de nossa comunidade sobre diferentes modelos de IA”.
Chiang disse que incidentes como a discrepância do Maverick Benchmark não são o resultado de uma falha no design da Chatbot Arena, mas os laboratórios interpretam mal sua política. A LM Arena tomou medidas para impedir que discrepâncias futuras ocorram, disse Chiang, incluindo a atualização de suas políticas para “reforçar nosso compromisso com avaliações justas e reprodutíveis”.
“Nossa comunidade não está aqui como voluntários ou testadores de modelos”, disse Chiang. “As pessoas usam a LM Arena porque damos a eles um lugar aberto e transparente para se envolver com a IA e dar feedback coletivo. Desde que a tabela de classificação reflita fielmente a voz da comunidade, bem -vindo que ela é compartilhada”.