Nos últimos dois anos, o desenvolvimento da IA operou em grande parte num modelo “sem estado”: solicitações recebidas, respostas enviadas, sem memória entre turnos. Isso funcionou para chatbots básicos, mas agora é um grande gargalo para agentes mais complexos que exigem memória de longo prazo, uso de ferramentas e raciocínio estendido. Na semana passada, o Google DeepMind lançou a versão beta pública da API Interactions, uma solução projetada para resolver essa lacuna fundamental de infraestrutura.
Essa mudança sinaliza uma mudança estratégica de tratar os Large Language Models (LLMs) como simples geradores de texto para gerenciá-los como sistemas operacionais remotos com estado persistente. A OpenAI deu o primeiro passo com sua API de respostas em março de 2025, mas a entrada do Google reforça a direção da indústria em direção à IA “com estado”.
A mudança para IA com estado: por que é importante
A abordagem tradicional sem estado forçou os desenvolvedores a gerenciar manualmente os históricos de conversas, enviando arquivos JSON potencialmente massivos a cada solicitação. A API Interactions elimina isso armazenando o estado no lado do servidor; os desenvolvedores simplesmente fornecem um previous_interaction_id e o Google cuida do resto. Como explicam Ali Çevik e Philipp Schmid da DeepMind, forçar esses recursos no antigo endpoint generateContent teria criado uma API instável e excessivamente complexa.
Isso desbloqueia a Execução em segundo plano, um recurso crucial para agentes autônomos. Os fluxos de trabalho que anteriormente expiraram devido aos limites de HTTP agora podem ser executados em segundo plano, com os desenvolvedores pesquisando os resultados posteriormente. A API torna-se efetivamente uma fila de trabalhos inteligente.
Principais recursos: pesquisa profunda e suporte MCP
O Google está aproveitando essa nova infraestrutura para apresentar seu primeiro agente integrado: Gemini Deep Research. Este agente realiza tarefas de pesquisa de longo horizonte, sintetizando informações por meio de pesquisas e leituras iterativas – ao contrário dos modelos que simplesmente prevêem o próximo token.
Igualmente importante é a adoção do Model Context Protocol (MCP) pelo Google. Isso permite que os modelos Gemini chamem ferramentas externas (como serviços meteorológicos ou bancos de dados) sem código de integração personalizado, simplificando os fluxos de trabalho.
Google x OpenAI: duas abordagens para gerenciamento de estado
Embora tanto o Google quanto a OpenAI estejam resolvendo o mesmo problema – inchaço do contexto – suas abordagens diferem significativamente. A OpenAI prioriza a eficiência do token por meio da Compactação, compactando o histórico de conversas em itens opacos e criptografados. Isto cria uma “caixa preta” onde o raciocínio do modelo fica oculto.
O Google, por outro lado, mantém o histórico completo das conversas, permitindo inspeção, manipulação e depuração. O modelo de dados é transparente, priorizando a composição em vez da compactação.
Modelos e preços suportados
A API Interactions agora está disponível em versão beta pública por meio do Google AI Studio, com suporte para:
- Gemini 3.0: Visualização do Gemini 3 Pro.
- Gemini 2.5: Flash, Flash Lite e Pro.
- Agentes: Visualização da pesquisa profunda (deep-research-pro-preview-12-2025).
Os preços seguem as taxas de token padrão do Google, mas as novas políticas de retenção de dados mudam a economia. O nível gratuito oferece retenção de apenas 1 dia, enquanto o nível pago estende isso para 55 dias. Essa retenção estendida reduz os custos totais, maximizando os acessos ao cache, já que os usuários recorrentes evitam o reprocessamento de enormes janelas de contexto.
Observação: Esta é uma versão Beta, portanto, espere alterações importantes.
Implicações para equipes: eficiência e riscos
Para engenheiros de IA, a API Interactions oferece uma solução direta para problemas de tempo limite por meio da execução em segundo plano. Em vez de criar manipuladores assíncronos personalizados, você pode transferir a complexidade para o Google. No entanto, essa conveniência troca controle por velocidade: o agente Deep Research é uma “caixa preta” em comparação com fluxos LangChain ou LangGraph personalizados.
Engenheiros seniores que gerenciam orçamentos se beneficiarão do cache implícito. Ao aproveitar o estado do lado do servidor, você evita custos de token associados ao reenvio do contexto. Mas integrar o MCP significa validar a segurança das ferramentas remotas.
Os engenheiros de dados apreciarão o modelo de dados estruturado, melhorando a integridade geral do pipeline. No entanto, o atual agente Deep Research retorna URLs “embrulhados” que podem expirar, exigindo etapas de limpeza em pipelines ETL.
Finalmente, os diretores de segurança de TI devem avaliar as vantagens e desvantagens do estado centralizado: maior segurança versus novos riscos de residência de dados. As políticas de retenção do Google (1 dia grátis, 55 dias para pago) são essenciais a serem consideradas.
Concluindo, a API de interações do Google é uma mudança fundamental na forma como os agentes de IA são construídos. Ao priorizar o gerenciamento do estado e a execução em segundo plano, oferece ganhos significativos de eficiência, mas também introduz novas considerações para controle, transparência e segurança de dados. Isso marca uma evolução clara na pilha de desenvolvedores, indo além das simples interações de entrada e saída de texto em direção à verdadeira inteligência em nível de sistema.





























