Um modelo do Google AI lançado recentemente pontua pior em certos testes de segurança do que seu antecessor, de acordo com o benchmarking interno da empresa.
Em um relatório técnico publicado nesta semana, o Google revela que seu modelo flash Gemini 2.5 tem maior probabilidade de gerar texto que viola suas diretrizes de segurança do que o Gemini 2.0 Flash. Em duas métricas, a segurança “Text-T-Text” e “segurança de imagem para texto”, o Gemini 2.5 Flash regredira 4,1% e 9,6%, respectivamente.
A segurança de texto para texto mede a frequência com que um modelo viola as diretrizes do Google, dado um prompt, enquanto a segurança de imagem para texto avalia a proximidade com que o modelo adere a esses limites quando solicitado usando uma imagem. Ambos os testes são automatizados, não supervisionados pelo homem.
Em uma declaração por e-mail, um porta-voz do Google confirmou que o Gemini 2.5 Flash “tem um desempenho pior na segurança de texto para texto e imagem para texto”.
Esses resultados surpreendentes de referência surgem à medida que as empresas de IA se movem para tornar seus modelos mais permissivos – em outras palavras, menos propensos a se recusar a responder a assuntos controversos ou sensíveis. Por sua última safra de modelos de lhama, a Meta disse que sintonizou os modelos para não endossar “algumas opiniões sobre outras” e responder a mais instruções políticas “debatidas”. O Openai disse no início deste ano que ajustaria futuros modelos para não adotar uma postura editorial e oferecer várias perspectivas sobre tópicos controversos.
Às vezes, esses esforços de permissividade saíram pela culatra. A TechCrunch informou na segunda -feira que o modelo padrão que alimenta o ChatGPT da OpenAI permitiu que os menores gerassem conversas eróticas. Openai culpou o comportamento por um “bug”.
De acordo com o relatório técnico do Google, o Gemini 2.5 Flash, que ainda está em pré -visualização, segue as instruções de maneira mais fiel do que o Gemini 2.0 Flash, incluindo instruções que cruzam linhas problemáticas. A empresa afirma que as regressões podem ser atribuídas em parte a falsos positivos, mas também admite que o flash Gemini 2.5 às vezes gera “conteúdo violento” quando perguntado explicitamente.
Evento do TechCrunch
Berkeley, CA.
|
5 de junho
Reserve agora
“Naturalmente, há tensão entre (instruções seguintes) sobre tópicos sensíveis e violações da política de segurança, o que se reflete em nossas avaliações”, diz o relatório.
Pontuações do SpeechMap, uma referência que investiga como os modelos respondem a instruções sensíveis e controversas, sugerem também que o flash Gemini 2.5 tem muito menos probabilidade de se recusar a responder a perguntas controversas do que o Gemini 2.0 Flash. Os testes do modelo da TechCrunch via AI Platform OpenRouter descobriram que ele escreverá de forma incompleta ensaios em apoio à substituição de juízes humanos por IA, enfraquecendo as proteções do devido processo nos EUA e implementando programas de vigilância generalizada do governo.
Thomas Woodside, co-fundador do projeto de IA seguro, disse que os detalhes limitados que o Google concedeu em seu relatório técnico demonstra a necessidade de mais transparência nos testes de modelo.
“Existe uma troca entre seguidores de instruções e seguidores de políticas, porque alguns usuários podem pedir conteúdo que viole as políticas”, disse Woodside ao TechCrunch. “Nesse caso, o mais recente modelo de flash do Google está em conformidade com as instruções mais, além de violar as políticas mais. O Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora digam que não são graves. Sem saber mais, é difícil para analistas independentes saber se há um problema”.
O Google já foi criticado por suas práticas de relatórios de segurança de modelo antes.
A empresa levou as semanas para publicar um relatório técnico para seu modelo mais capaz, Gemini 2.5 Pro. Quando o relatório acabou sendo publicado, inicialmente omitiu os principais detalhes dos testes de segurança.
Na segunda -feira, o Google divulgou um relatório mais detalhado com informações de segurança adicionais.