CEO antrópico quer abrir a caixa preta dos modelos de IA até 2027

O CEO do Antrópico, Dario Amodei, publicou um ensaio na quinta -feira destacando como os pesquisadores entendem sobre o funcionamento interno dos principais modelos de IA do mundo. Para abordar isso, a Amodei estabeleceu uma meta ambiciosa para detectar a maioria dos problemas do modelo de IA até 2027.

Amodei reconhece o desafio pela frente. Em “A urgência da interpretabilidade”, o CEO diz que o Antrópico fez os primeiros avanços ao rastrear como os modelos chegam às suas respostas – mas enfatiza que é necessária muito mais pesquisa para decodificar esses sistemas à medida que se tornam mais poderosos.

“Estou muito preocupado em implantar esses sistemas sem melhor lidar com a interpretabilidade”, escreveu Amodei no ensaio. “Esses sistemas serão absolutamente centrais para a economia, tecnologia e segurança nacional e serão capazes de tanta autonomia que considero basicamente inaceitável que a humanidade seja totalmente ignorante de como eles funcionam”.

O Antrópico é uma das empresas pioneiras na interpretabilidade mecanicista, um campo que visa abrir a caixa preta dos modelos de IA e entender por que eles tomam as decisões que fazem. Apesar das rápidas melhorias de desempenho dos modelos de IA do setor de tecnologia, ainda temos relativamente pouca idéia de como esses sistemas chegam às decisões.

Por exemplo, o OpenAI lançou recentemente novos modelos de IA de raciocínio, O3 e O4-Mini, que têm melhor desempenho em algumas tarefas, mas também alucinam mais do que seus outros modelos. A empresa não sabe por que está acontecendo.

“Quando um sistema de IA generativo faz algo, como resumir um documento financeiro, não temos idéia, em um nível específico ou preciso, por que faz as escolhas que ele faz – por que escolhe certas palavras em detrimento de outras pessoas ou por que ocasionalmente comete um erro, apesar de geralmente ser preciso”, escreveu Amodei no ensaio.

O co-fundador antrópico, Chris Olah, diz que os modelos de IA são “crescidos mais do que são construídos”, observa Amodei no ensaio. Em outras palavras, os pesquisadores de IA encontraram maneiras de melhorar a inteligência do modelo de IA, mas não sabem por que.

No ensaio, Amodei diz que pode ser perigoso chegar a Agi – ou como ele chama, “um país de gênios em um data center” – sem entender como esses modelos funcionam. Em um ensaio anterior, Amodei afirmou que a indústria de tecnologia poderia atingir esse marco até 2026 ou 2027, mas acredita que estamos muito mais distantes da compreensão totalmente desses modelos de IA.

A longo prazo, Amodei diz que o Anthropic gostaria, essencialmente, conduzir “varreduras cerebrais” ou “ressonância magnética” dos modelos de IA de última geração. Esses exames ajudariam a identificar uma ampla gama de questões nos modelos de IA, incluindo suas tendências de mentir, procurar poder ou outra fraqueza, diz ele. Isso pode levar de cinco a dez anos para alcançar, mas essas medidas serão necessárias para testar e implantar os futuros modelos de IA da Anthropic, acrescentou.

A Anthropic fez alguns avanços de pesquisa que permitiram entender melhor como seus modelos de IA funcionam. Por exemplo, a empresa recentemente encontrou maneiras de rastrear caminhos de pensamento de um modelo de IA, o que a empresa chama, circuitos. Antrópica identificou um circuito que ajuda os modelos de IA a entender quais cidades dos EUA estão localizadas nos quais os Estados dos EUA. A empresa encontrou apenas alguns desses circuitos, mas estima que existem milhões nos modelos de IA.

A Anthropic tem investido em pesquisa de interpretabilidade e recentemente fez seu primeiro investimento em uma startup trabalhando na interpretabilidade. No ensaio, Amodei pediu ao Openai e no Google Deepmind para aumentar seus esforços de pesquisa no campo.

A Amodei pede aos governos que imporem regulamentos de “toque leve” para incentivar a pesquisa de interpretabilidade, como requisitos para as empresas divulgarem suas práticas de segurança. No ensaio, Amodei também diz que os EUA devem colocar controles de exportação sobre chips para a China, a fim de limitar a probabilidade de uma corrida global de IA global fora de controle.

O Anthropic sempre se destacou do OpenAI e do Google por seu foco na segurança. Enquanto outras empresas de tecnologia recuperaram a controversa conta de segurança da IA ​​da Califórnia, SB 1047, o Antrópico emitiu Suporte e Recomendações Modestas para o Projeto de Lei, o que teria estabelecido padrões de relatórios de segurança para os desenvolvedores de modelos de AI da Frontier.

Nesse caso, o Antrópico parece estar pressionando por um esforço em todo o setor para entender melhor os modelos de IA, não apenas aumentando suas capacidades.

Veja também