O novo modelo Phi 4 AI da Microsoft rivaliza com o desempenho de sistemas muito maiores

A Microsoft lançou vários novos modelos de IA “abertos” na quarta-feira, o mais capaz dos quais é competitivo com o O3-mini da Openai em pelo menos um benchmark.

Todos os novos modelos licenciados pela PEMissivamente-Phi 4 Mini Raciacing, Phi 4 Raconing e Phi 4 Raconing Plus-são modelos de “raciocínio”, o que significa que eles são capazes de gastar mais soluções de verificação de fatos para problemas complexos. Eles expandem a família Phi “Small Model” da Microsoft, que a empresa lançou há um ano para oferecer uma base para os desenvolvedores de IA que construíram aplicativos no limite.

O mini -raciocínio PHI 4 foi treinado em aproximadamente 1 milhão de problemas de matemática sintética gerados pelo modelo de raciocínio R1 da startup de IA chinês. Cerca de 3,8 bilhões de parâmetros de tamanho, o Phi 4 Mini Raciocining foi projetado para aplicações educacionais, diz a Microsoft, como “tutoria incorporada” em dispositivos leves.

Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.

O raciocínio Phi 4, um modelo de 14 bilhões de parâmetros, foi treinado usando dados da Web de “alta qualidade”, além de “demonstrações com curadoria” da mencionada O3-mini do OpenAI. É melhor para aplicativos de matemática, ciências e codificação, de acordo com a Microsoft.

Quanto ao Raciocinamento Phi 4, é o modelo PHI-4 lançado anteriormente da Microsoft adaptado para um modelo de raciocínio para obter uma melhor precisão em tarefas específicas. A Microsoft afirma que o Phi 4 Raconing Plus aborda os níveis de desempenho de R1, um modelo com parâmetros significativamente mais (671 bilhões). O benchmarking interno da empresa também possui o raciocínio Phi 4, além de combinar O3-mini no Omnimath, um teste de habilidades matemáticas.

Phi 4 Mini Raciocínio, Raciocínio Phi 4 e Phi 4 Raciacing Plus estão disponíveis na plataforma AI dev abraçando o rosto acompanhado por relatórios técnicos detalhados.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho

Reserve agora

“Usando a destilação, o aprendizado de reforço e os dados de alta qualidade, esses (novos) modelos balançam tamanho e desempenho”, escreveu a Microsoft em uma postagem no blog. “Eles são pequenos o suficiente para ambientes de baixa latência, mas mantêm fortes recursos de raciocínio que rivalizam com modelos muito maiores. Essa mistura permite que até dispositivos limitados por recursos executem tarefas de raciocínio complexas com eficiência”.

Veja também