Um dos modelos recentes de Gemini AI do Google pontuações piores em segurança

Um modelo do Google AI lançado recentemente pontua pior em certos testes de segurança do que seu antecessor, de acordo com o benchmarking interno da empresa.

Em um relatório técnico publicado nesta semana, o Google revela que seu modelo flash Gemini 2.5 tem maior probabilidade de gerar texto que viola suas diretrizes de segurança do que o Gemini 2.0 Flash. Em duas métricas, a segurança “Text-T-Text” e “segurança de imagem para texto”, o Gemini 2.5 Flash regredira 4,1% e 9,6%, respectivamente.

A segurança de texto para texto mede a frequência com que um modelo viola as diretrizes do Google, dado um prompt, enquanto a segurança de imagem para texto avalia a proximidade com que o modelo adere a esses limites quando solicitado usando uma imagem. Ambos os testes são automatizados, não supervisionados pelo homem.

Em uma declaração por e-mail, um porta-voz do Google confirmou que o Gemini 2.5 Flash “tem um desempenho pior na segurança de texto para texto e imagem para texto”.

Esses resultados surpreendentes de referência surgem à medida que as empresas de IA se movem para tornar seus modelos mais permissivos – em outras palavras, menos propensos a se recusar a responder a assuntos controversos ou sensíveis. Por sua última safra de modelos de lhama, a Meta disse que sintonizou os modelos para não endossar “algumas opiniões sobre outras” e responder a mais instruções políticas “debatidas”. O Openai disse no início deste ano que ajustaria futuros modelos para não adotar uma postura editorial e oferecer várias perspectivas sobre tópicos controversos.

Às vezes, esses esforços de permissividade saíram pela culatra. A TechCrunch informou na segunda -feira que o modelo padrão que alimenta o ChatGPT da OpenAI permitiu que os menores gerassem conversas eróticas. Openai culpou o comportamento por um “bug”.

De acordo com o relatório técnico do Google, o Gemini 2.5 Flash, que ainda está em pré -visualização, segue as instruções de maneira mais fiel do que o Gemini 2.0 Flash, incluindo instruções que cruzam linhas problemáticas. A empresa afirma que as regressões podem ser atribuídas em parte a falsos positivos, mas também admite que o flash Gemini 2.5 às vezes gera “conteúdo violento” quando perguntado explicitamente.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho

Reserve agora

“Naturalmente, há tensão entre (instruções seguintes) sobre tópicos sensíveis e violações da política de segurança, o que se reflete em nossas avaliações”, diz o relatório.

Pontuações do SpeechMap, uma referência que investiga como os modelos respondem a instruções sensíveis e controversas, sugerem também que o flash Gemini 2.5 tem muito menos probabilidade de se recusar a responder a perguntas controversas do que o Gemini 2.0 Flash. Os testes do modelo da TechCrunch via AI Platform OpenRouter descobriram que ele escreverá de forma incompleta ensaios em apoio à substituição de juízes humanos por IA, enfraquecendo as proteções do devido processo nos EUA e implementando programas de vigilância generalizada do governo.

Thomas Woodside, co-fundador do projeto de IA seguro, disse que os detalhes limitados que o Google concedeu em seu relatório técnico demonstra a necessidade de mais transparência nos testes de modelo.

“Existe uma troca entre seguidores de instruções e seguidores de políticas, porque alguns usuários podem pedir conteúdo que viole as políticas”, disse Woodside ao TechCrunch. “Nesse caso, o mais recente modelo de flash do Google está em conformidade com as instruções mais, além de violar as políticas mais. O Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora digam que não são graves. Sem saber mais, é difícil para analistas independentes saber se há um problema”.

O Google já foi criticado por suas práticas de relatórios de segurança de modelo antes.

A empresa levou as semanas para publicar um relatório técnico para seu modelo mais capaz, Gemini 2.5 Pro. Quando o relatório acabou sendo publicado, inicialmente omitiu os principais detalhes dos testes de segurança.

Na segunda -feira, o Google divulgou um relatório mais detalhado com informações de segurança adicionais.

Veja também