додому Neueste Nachrichten und Artikel Googles Interactions API: Eine neue Ära für die KI-Entwicklung

Googles Interactions API: Eine neue Ära für die KI-Entwicklung

In den letzten zwei Jahren basierte die KI-Entwicklung größtenteils auf einem „zustandslosen“ Modell: Eingabeaufforderungen eingehen, Antworten auslösen, keine Erinnerung zwischen den Runden. Dies funktionierte bei einfachen Chatbots, stellt jedoch jetzt einen großen Engpass für komplexere Agenten dar, die ein Langzeitgedächtnis, die Verwendung von Tools und erweitertes Denken erfordern. Letzte Woche hat Google DeepMind die öffentliche Betaversion der Interactions API gestartet, einer Lösung, die diese grundlegende Infrastrukturlücke schließen soll.

Dieser Schritt signalisiert einen strategischen Wandel von der Behandlung großer Sprachmodelle (LLMs) als einfache Textgeneratoren hin zur Verwaltung als Remote-Betriebssysteme mit persistentem Status. OpenAI hat mit seiner Responses API im März 2025 den ersten Schritt gemacht, aber der Einstieg von Google bestärkt die Richtung der Branche in Richtung „stateful“ AI.

Der Wandel zu Stateful AI: Warum es wichtig ist

Der traditionelle zustandslose Ansatz zwang Entwickler dazu, Konversationsverläufe manuell zu verwalten und bei jeder Anfrage potenziell umfangreiche JSON-Dateien zu senden. Die Interactions API beseitigt dies, indem der Status serverseitig gespeichert wird. Entwickler stellen einfach eine „ previous_interaction_id“ bereit und Google kümmert sich um den Rest. Wie Ali Çevik und Philipp Schmid von DeepMind erklären, hätte das Erzwingen dieser Funktionen in den alten „generateContent“-Endpunkt zu einer instabilen und übermäßig komplexen API geführt.

Dadurch wird die Hintergrundausführung freigeschaltet, eine entscheidende Funktion für autonome Agenten. Workflows, bei denen es zuvor aufgrund von HTTP-Beschränkungen zu Zeitüberschreitungen kam, können jetzt im Hintergrund ausgeführt werden, wobei die Entwickler die Ergebnisse später abfragen. Die API wird effektiv zu einer intelligenten Jobwarteschlange.

Hauptmerkmale: Umfassende Recherche und MCP-Unterstützung

Google nutzt diese neue Infrastruktur, um seinen ersten integrierten Agenten vorzustellen: Gemini Deep Research. Dieser Agent führt Forschungsaufgaben über einen längeren Zeitraum durch und synthetisiert Informationen durch iterative Such- und Lesevorgänge – im Gegensatz zu Modellen, die einfach den nächsten Token vorhersagen.

Ebenso wichtig ist die Übernahme des Model Context Protocol (MCP) durch Google. Dadurch können Gemini-Modelle externe Tools (wie Wetterdienste oder Datenbanken) ohne benutzerdefinierten Integrationscode aufrufen und so Arbeitsabläufe optimieren.

Google vs. OpenAI: Zwei Ansätze zur Zustandsverwaltung

Während sowohl Google als auch OpenAI das gleiche Problem lösen – die Kontextaufblähung –, unterscheiden sich ihre Ansätze erheblich. OpenAI priorisiert die Token-Effizienz durch Komprimierung und komprimiert den Konversationsverlauf in undurchsichtige, verschlüsselte Elemente. Dadurch entsteht eine „Black Box“, in der die Argumentation des Modells verborgen bleibt.

Im Gegensatz dazu behält Google den vollständigen Gesprächsverlauf bei und ermöglicht so Inspektion, Manipulation und Fehlerbehebung. Das Datenmodell ist transparent und stellt die Zusammensetzbarkeit vor die Komprimierung.

Unterstützte Modelle und Preise

Die Interactions API ist jetzt in der öffentlichen Betaversion über Google AI Studio verfügbar und unterstützt:

  • Gemini 3.0: Vorschau auf Gemini 3 Pro.
  • Gemini 2.5: Flash, Flash-lite und Pro.
  • Agenten: Deep Research Preview (deep-research-pro-preview-12-2025).

Die Preise richten sich nach den Standard-Token-Tarifen von Google, aber die neuen Richtlinien zur Datenaufbewahrung verändern die Wirtschaftlichkeit. Das kostenlose Kontingent bietet nur eine Aufbewahrung von einem Tag, während das kostenpflichtige Kontingent diese auf 55 Tage verlängert. Diese verlängerte Aufbewahrung senkt die Gesamtkosten durch Maximierung der Cache-Treffer, da wiederkehrende Benutzer die erneute Verarbeitung umfangreicher Kontextfenster vermeiden.

Hinweis: Dies ist eine Beta-Version, Sie können also mit wichtigen Änderungen rechnen.

Implikationen für Teams: Effizienz und Risiken

Für KI-Ingenieure bietet die Interactions API eine direkte Lösung für Timeout-Probleme durch Hintergrundausführung. Anstatt benutzerdefinierte asynchrone Handler zu erstellen, können Sie die Komplexität an Google auslagern. Dieser Komfort geht jedoch zu Lasten der Kontrolle und der Geschwindigkeit: Der Deep Research-Agent ist im Vergleich zu benutzerdefinierten LangChain- oder LangGraph-Flows eine „Black Box“.

Leitende Ingenieure, die Budgets verwalten, werden vom impliziten Caching profitieren. Durch die Nutzung des serverseitigen Status vermeiden Sie Tokenkosten, die mit dem erneuten Hochladen von Kontext verbunden sind. Aber die Integration von MCP bedeutet, die Sicherheit von Remote-Tools zu validieren.

Dateningenieure werden das strukturierte Datenmodell zu schätzen wissen, das die Gesamtintegrität der Pipeline verbessert. Der aktuelle Deep Research-Agent gibt jedoch „verpackte“ URLs zurück, die möglicherweise ablaufen und Bereinigungsschritte in ETL-Pipelines erfordern.

Schließlich müssen IT-Sicherheitsdirektoren die Kompromisse eines zentralisierten Staates abwägen: verbesserte Sicherheit gegenüber neuen Risiken bei der Datenspeicherung. Die Aufbewahrungsrichtlinien von Google (1 Tag kostenlos, 55 Tage kostenpflichtig) müssen unbedingt berücksichtigt werden.

Zusammenfassend lässt sich sagen, dass die Interactions API von Google einen grundlegenden Wandel in der Art und Weise darstellt, wie KI-Agenten erstellt werden. Durch die Priorisierung der Statusverwaltung und der Hintergrundausführung bietet es erhebliche Effizienzgewinne, führt aber auch neue Überlegungen zu Kontrolle, Transparenz und Datensicherheit ein. Dies stellt eine deutliche Weiterentwicklung im Entwickler-Stack dar und geht über einfache Text-In-/Text-Out-Interaktionen hinaus hin zu echter Intelligenz auf Systemebene.

Exit mobile version