O Openai diz que implantou um novo sistema para monitorar seus mais recentes modelos de raciocínio de IA, O3 e O4-mini, para avisos relacionados a ameaças biológicas e químicas. O sistema pretende impedir que os modelos ofereçam conselhos que possam instruir alguém a realizar ataques potencialmente prejudiciais, de acordo com o relatório de segurança da Openai.
O3 e O4-mini representam um aumento significativo da capacidade dos modelos anteriores do OpenAI, diz a empresa, e assim representa novos riscos nas mãos de maus atores. De acordo com os benchmarks internos da Openai, a O3 é mais habilidosa em responder a perguntas sobre a criação de certos tipos de ameaças biológicas em particular. Por esse motivo-e para mitigar outros riscos-o OpenAI criou o novo sistema de monitoramento, que a empresa descreve como um “monitor de raciocínio focado na segurança”.
O monitor, treinado sob medida sobre as políticas de conteúdo da OpenAI, é executado em cima de O3 e O4-mini. Ele foi projetado para identificar instruções relacionadas ao risco biológico e químico e instruir os modelos a se recusar a oferecer conselhos sobre esses tópicos.
Para estabelecer uma linha de base, o OpenAI fez com que os equipes vermelhas passassem cerca de 1.000 horas sinalizando conversas relacionadas a biorisco “inseguras” de O3 e O4-mini. Durante um teste no qual o OpenAI simulou a “lógica de bloqueio” de seu monitor de segurança, os modelos se recusaram a responder a instruções de risco 98,7% das vezes, de acordo com o OpenAI.
O OpenAI reconhece que seu teste não respondeu por pessoas que podem tentar novos avisos depois de serem bloqueados pelo monitor, e é por isso que a empresa diz que continuará confiando em parte no monitoramento humano.
O3 e O4-Mini não cruzam o limiar de “alto risco” da Biorisks, de acordo com a empresa. No entanto, em comparação com O1 e GPT-4, o OpenAI diz que as primeiras versões de O3 e O4-mini se mostraram mais úteis em responder a perguntas sobre o desenvolvimento de armas biológicas.
A empresa está rastreando ativamente como seus modelos podem facilitar o desenvolvimento de ameaças químicas e biológicas, de acordo com a estrutura de preparação recentemente atualizada do OpenAI.
O OpenAI depende cada vez mais de sistemas automatizados para mitigar os riscos de seus modelos. Por exemplo, para impedir que o gerador de imagens nativas do GPT-4O crie material de abuso sexual infantil (CSAM), o OpenAI diz que usa em um monitor de raciocínio semelhante ao que a empresa implantou para O3 e O4-mini.
No entanto, vários pesquisadores levantaram preocupações que o OpenAI não está priorizando a segurança tanto quanto deveria. Um dos parceiros de equipes vermelhas da empresa, Metro, disse que tinha relativamente pouco tempo para testar a O3 em uma referência para comportamentos enganosos. Enquanto isso, o Openai decidiu não lançar um relatório de segurança para o seu modelo GPT-4.1, lançado no início desta semana.