O Google lança ‘cache implícito’ para fazer o acesso aos seus mais recentes modelos de IA mais baratos

O Google está lançando um recurso em sua API Gemini que a empresa afirma que tornará seus mais recentes modelos de IA mais baratos para desenvolvedores de terceiros.

O Google chama o recurso de “cache implícito” e diz que pode gerar 75% de economia em “contexto repetitivo” passado aos modelos através da API Gemini. Ele suporta modelos Gemini 2.5 Pro e 2.5 Flash do Google.

É provável que seja bem -vindo notícias aos desenvolvedores, à medida que o custo do uso de modelos de fronteira continua a crescer.

O armazenamento em cache, uma prática amplamente adotada no setor de IA, reutiliza dados frequentemente acessados ​​ou pré-computados de modelos para reduzir os requisitos de computação e o custo. Por exemplo, os caches podem armazenar respostas às perguntas que os usuários geralmente pedem a um modelo, eliminando a necessidade de o modelo recriar respostas para a mesma solicitação.

O Google ofereceu um cache imediato de modelo, mas apenas explícito Cache rápido, o que significa que os desenvolvedores tiveram que definir seus avisos de frequência mais alta. Embora a economia de custos seja garantida, o cache imediato explícito geralmente envolvia muito trabalho manual.

Alguns desenvolvedores não ficaram satisfeitos com a forma como a implementação explícita de cache do Google funcionou para o Gemini 2.5 Pro especificamente, o que, segundo eles, causou contas de API surpreendentemente grandes. As queixas atingiram um pico de febre na semana passada, levando a equipe de Gemini a pedir desculpas e se comprometer a fazer mudanças.

Ao contrário do cache explícito, o cache implícito é automático. Ativado por padrão para os modelos Gemini 2.5, ele passa com economia de custos se uma solicitação de API Gemini para um modelo atingir um cache.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho

Reserve agora

“(W) quando você envia uma solicitação para um dos modelos Gemini 2.5, se a solicitação compartilhar um prefixo comum como um dos pedidos anteriores, será elegível para um acerto de cache”, explicou o Google em uma postagem no blog. “Vamos passar dinamicamente economizar custos de volta para você.”

A contagem mínima de token prompt para armazenamento implícito é de 1.024 para 2,5 flash e 2.048 para 2,5 Pro, de acordo com a documentação do desenvolvedor do Google, o que não é uma quantia terrivelmente grande, o que significa que não deve levar muito para acionar essas economias automáticas. Os tokens são os bits brutos de modelos de dados com os quais trabalham, com mil tokens equivalentes a cerca de 750 palavras.

Dado que as últimas reivindicações de economia de custos do Google do cache foram atendidas, existem algumas áreas de comprador nessas novas reivindicações. Por um lado, o Google recomenda que os desenvolvedores mantenham o contexto repetitivo no início das solicitações para aumentar as chances de acertos de cache implícitos. O contexto que pode mudar da solicitação para solicitação deve ser anexado no final, diz a empresa.

Por outro lado, o Google não ofereceu nenhuma verificação de terceiros de que o novo sistema de cache implícito proporcionaria as prometidas economias automáticas. Então, teremos que ver o que dizem os primeiros adotantes.

Veja também