API Interactions de Google : une nouvelle ère pour le développement de l’IA

4

Au cours des deux dernières années, le développement de l’IA a largement fonctionné selon un modèle « apatride » : des invites entrantes, des réponses sortantes, aucune mémoire entre les tours. Cela fonctionnait pour les chatbots de base, mais constitue désormais un goulot d’étranglement majeur pour les agents plus complexes qui nécessitent une mémoire à long terme, l’utilisation d’outils et un raisonnement étendu. La semaine dernière, Google DeepMind a lancé la version bêta publique de l’API Interactions, une solution conçue pour combler cette lacune fondamentale en matière d’infrastructure.

Cette décision marque un changement stratégique, passant du traitement des grands modèles linguistiques (LLM) comme de simples générateurs de texte à leur gestion comme des systèmes d’exploitation distants avec un état persistant. OpenAI a fait le premier pas avec son API Responses en mars 2025, mais l’entrée de Google renforce l’orientation du secteur vers une IA « avec état ».

Le passage à l’IA avec état : pourquoi c’est important

L’approche traditionnelle sans état obligeait les développeurs à gérer manuellement les historiques de conversations, envoyant des fichiers JSON potentiellement volumineux à chaque requête. L’API Interactions élimine ce problème en stockant l’état côté serveur ; les développeurs fournissent simplement un « previous_interaction_id » et Google s’occupe du reste. Comme l’expliquent Ali Çevik et Philipp Schmid de DeepMind, forcer ces fonctionnalités dans l’ancien point de terminaison « generateContent » aurait créé une API instable et trop complexe.

Cela débloque l’Background Execution, une fonctionnalité cruciale pour les agents autonomes. Les flux de travail qui expiraient auparavant en raison des limites HTTP peuvent désormais s’exécuter en arrière-plan, les développeurs interrogeant les résultats ultérieurement. L’API devient effectivement une file d’attente de tâches intelligente.

Fonctionnalités clés : recherche approfondie et prise en charge de MCP

Google exploite cette nouvelle infrastructure pour introduire son premier agent intégré : Gemini Deep Research. Cet agent effectue des tâches de recherche à long terme, synthétisant les informations via des recherches et des lectures itératives – contrairement aux modèles qui prédisent simplement le prochain jeton.

L’adoption par Google du Model Context Protocol (MCP) est tout aussi importante. Cela permet aux modèles Gemini d’appeler des outils externes (tels que des services météorologiques ou des bases de données) sans code d’intégration personnalisé, rationalisant ainsi les flux de travail.

Google contre OpenAI : deux approches de la gestion de l’état

Bien que Google et OpenAI résolvent le même problème – la surcharge contextuelle – leurs approches diffèrent considérablement. OpenAI donne la priorité à l’efficacité des jetons via Compaction, en compressant l’historique des conversations en éléments opaques et cryptés. Cela crée une « boîte noire » où le raisonnement du modèle est caché.

Google, en revanche, conserve l’historique complet des conversations, permettant ainsi l’inspection, la manipulation et le débogage. Le modèle de données est transparent et donne la priorité à la composabilité plutôt qu’à la compression.

Modèles et prix pris en charge

L’API Interactions est désormais disponible en version bêta publique via Google AI Studio, prenant en charge :

  • Gemini 3.0 : Aperçu de Gemini 3 Pro.
  • Gemini 2.5 : Flash, Flash-lite et Pro.
  • Agents : Aperçu de la recherche approfondie (deep-research-pro-preview-12-2025).

Les prix suivent les tarifs de jetons standard de Google, mais les nouvelles politiques de conservation des données changent la donne. Le niveau gratuit n’offre qu’une journée de rétention, tandis que le niveau payant étend cette durée à 55 jours. Cette rétention étendue réduit les coûts totaux en maximisant les accès au cache, car les utilisateurs récurrents évitent de retraiter des fenêtres contextuelles volumineuses.

Remarque : Il s’agit d’une version bêta, alors attendez-vous à des changements importants.

Implications pour les équipes : efficacité et risques

Pour les ingénieurs en IA, l’API Interactions offre une solution directe aux problèmes de délai d’attente via l’exécution en arrière-plan. Au lieu de créer des gestionnaires asynchrones personnalisés, vous pouvez confier la complexité à Google. Cependant, cette commodité troque le contrôle contre la vitesse : l’agent Deep Research est une « boîte noire » comparée aux flux LangChain ou LangGraph personnalisés.

Les ingénieurs senior gérant les budgets bénéficieront de la mise en cache implicite. En tirant parti de l’état côté serveur, vous évitez les coûts de jetons associés au nouveau téléchargement du contexte. Mais intégrer MCP, c’est valider la sécurité des outils distants.

Les ingénieurs de données apprécieront le modèle de données structuré, améliorant l’intégrité globale du pipeline. Cependant, l’agent Deep Research actuel renvoie des URL « encapsulées » qui peuvent expirer, nécessitant des étapes de nettoyage dans les pipelines ETL.

Enfin, les responsables de la sécurité informatique doivent peser les compromis d’un État centralisé : une sécurité améliorée par rapport aux nouveaux risques liés à la résidence des données. Les politiques de rétention de Google (1 jour gratuit, 55 jours payant) sont essentielles à prendre en compte.

En conclusion, l’API Interactions de Google constitue un changement fondamental dans la façon dont les agents d’IA sont créés. En donnant la priorité à la gestion des états et à l’exécution en arrière-plan, il offre des gains d’efficacité significatifs, mais introduit également de nouvelles considérations en matière de contrôle, de transparence et de sécurité des données. Cela marque une nette évolution dans la pile des développeurs, allant au-delà des simples interactions d’entrée et de sortie de texte vers une véritable intelligence au niveau du système.