O OpenAI publicou um post-mortem sobre os recentes problemas de bajulação com o modelo de IA padrão que alimenta ChatGPT, GPT-4O-questões que forçaram a empresa a reverter uma atualização do modelo lançado na semana passada.
No fim de semana, após a atualização do modelo GPT-4O, os usuários nas mídias sociais observaram que o ChatGPT começou a responder de uma maneira excessivamente validada e agradável. Rapidamente se tornou um meme. Os usuários postaram capturas de tela do ChatGPT aplaudindo todos os tipos de decisões e idéias problemáticas e perigosas.
De acordo com o OpenAI, a atualização, destinada a tornar a personalidade padrão do modelo “parecer mais intuitiva e eficaz”, foi informada demais por “feedback de curto prazo” e “não explicou completamente como as interações dos usuários com o ChatGPT evoluem ao longo do tempo”.
“Como resultado, o GPT -4O distorceu as respostas que eram excessivamente favoráveis, mas falsas”, escreveu o OpenAi em um post no blog. “As interações banhadas podem ser desconfortáveis, perturbadoras e causar angústia. Ficamos aquém e estamos trabalhando para acertar.”
O Openai diz que está implementando várias correções, incluindo refinar suas técnicas principais de treinamento de modelo e instruções do sistema para afastar explicitamente o GPT-4O da bajulação. A empresa também está construindo mais corrimãos de segurança para “aumentar a honestidade e a transparência do modelo”, diz o documento.
O Openai também diz que está explorando maneiras de permitir que os usuários dêem “feedback em tempo real” para “influenciar diretamente suas interações” com o ChatGPT e escolher entre várias “personalidades” do ChatGPT.
“(W) explorando novas maneiras de incorporar feedback mais amplo e democrático aos comportamentos padrão do ChatGPT”, escreveu a empresa em sua postagem no blog. “Também acreditamos que os usuários devem ter mais controle sobre como o ChatGPT se comporta e, na medida em que é seguro e viável, faça ajustes se não concordarem com o comportamento padrão”.