Google Interactions API: Новая Эра в Разработке ИИ

1

В течение последних двух лет разработка ИИ в основном базировалась на “безсостоятельной” модели: запросы поступают, ответы выдаются, без сохранения памяти между обращениями. Это работало для простых чат-ботов, но теперь стало серьезным препятствием для более сложных агентов, которым требуется долгосрочная память, использование инструментов и расширенное рассуждение. На прошлой неделе Google DeepMind запустил общедоступную бета-версию Interactions API, решение, призванное устранить этот фундаментальный инфраструктурный пробел.

Этот шаг сигнализирует о стратегическом сдвиге: от рассмотрения больших языковых моделей (LLM) как простых генераторов текста к управлению ими как удаленных операционных систем с постоянным состоянием. OpenAI сделала первый шаг с Responses API в марте 2025 года, но выход Google укрепляет тенденцию в отрасли к “состоятельному” ИИ.

Переход к Состоятельному ИИ: Почему Это Важно

Традиционный безсостоятельный подход вынуждал разработчиков вручную управлять историей разговоров, отправляя потенциально огромные JSON-файлы с каждым запросом. Interactions API устраняет это, сохраняя состояние на стороне сервера; разработчики просто предоставляют previous_interaction_id, а Google обрабатывает все остальное. Как объясняют Али Чевик и Филипп Шмид из DeepMind, принудительное встраивание этих возможностей в старую конечную точку generateContent привело бы к нестабильному и чрезмерно сложному API.

Это открывает Фоновое Выполнение, важнейшую функцию для автономных агентов. Рабочие процессы, которые ранее завершались из-за HTTP-ограничений, теперь могут выполняться в фоновом режиме, а разработчики могут позже опрашивать результаты. API фактически становится интеллектуальной очередью заданий.

Ключевые Особенности: Глубокое Исследование и Поддержка MCP

Google использует эту новую инфраструктуру для представления своего первого встроенного агента: Gemini Deep Research. Этот агент выполняет исследовательские задачи с горизонтом планирования, синтезируя информацию посредством итеративных поисков и чтения — в отличие от моделей, которые просто предсказывают следующий токен.

Не менее важна поддержка Google Протокола Контекста Модели (MCP). Это позволяет моделям Gemini вызывать внешние инструменты (например, службы погоды или базы данных) без пользовательского кода интеграции, упрощая рабочие процессы.

Google против OpenAI: Два Подхода к Управлению Состоянием

Хотя Google и OpenAI решают одну и ту же проблему — разрастание контекста — их подходы существенно различаются. OpenAI приоритизирует эффективность токенов посредством Компактизации, сжимая историю разговоров в непрозрачные, зашифрованные элементы. Это создает “черный ящик”, где рассуждения модели скрыты.

Google, напротив, сохраняет полную историю разговоров, что позволяет проводить анализ, манипулирование и отладку. Модель данных прозрачна, приоритизируя компонуемость по сравнению с сжатием.

Поддерживаемые Модели и Цены

Interactions API теперь доступен в общедоступной бета-версии через Google AI Studio и поддерживает:

  • Gemini 3.0: Gemini 3 Pro Preview.
  • Gemini 2.5: Flash, Flash-lite и Pro.
  • Агенты: Deep Research Preview (deep-research-pro-preview-12-2025).

Цены соответствуют стандартным тарифам Google за токены, но новые политики хранения данных меняют экономику. Бесплатный тариф предлагает хранение только в течение 1 дня, в то время как платный тариф продлевает этот срок до 55 дней. Это расширенное хранение снижает общие затраты за счет максимизации попаданий в кэш, поскольку часто использующие пользователи избегают повторной обработки больших контекстных окон.

Примечание: Это бета-версия, поэтому ожидайте изменений, нарушающих обратную совместимость.

Последствия для Команд: Эффективность и Риски

Для инженеров ИИ Interactions API предлагает прямое решение проблем с тайм-аутом благодаря Фоновому Выполнению. Вместо разработки собственных асинхронных обработчиков вы можете переложить сложность на Google. Однако это удобство обменивает контроль на скорость: агент Deep Research является “черным ящиком” по сравнению с пользовательскими потоками LangChain или LangGraph.

Старшие инженеры, управляющие бюджетами, выиграют от Неявного Кэширования. Используя состояние на стороне сервера, вы избегаете затрат на токены, связанных с повторной загрузкой контекста. Но интеграция MCP означает проверку безопасности удаленных инструментов.

Инженеры данных оценят структурированную модель данных, повышая общую целостность конвейера. Однако текущий агент Deep Research возвращает “завернутые” URL-адреса, которые могут истечь, что требует этапов очистки в ETL-конвейерах.

Наконец, руководители ИТ-безопасности должны взвесить компромиссы централизованного состояния: улучшенная безопасность против новых рисков для резидентства данных. Политики хранения Google (1 день для Бесплатной версии, 55 дней для Платной версии) имеют решающее значение для рассмотрения.

В заключение, Interactions API от Google — это фундаментальный сдвиг в том, как создаются ИИ-агенты. Приоритизируя управление состоянием и фоновое выполнение, он предлагает значительные преимущества в эффективности, но также представляет новые соображения в отношении контроля, прозрачности и безопасности данных. Это знаменует собой четкую эволюцию в стеке разработчика, переход от простого взаимодействия “текст на входе, текст на выходе” к настоящему интеллекту на системном уровне.