Google Gemini теперь способен автоматизировать задачи непосредственно в приложениях на телефонах Pixel и Galaxy. Первые тесты демонстрируют неуклюжую, но функциональную версию того, что может стать революционным опытом использования ИИ-помощника. Хотя в данный момент возможности ограничены базовыми функциями, такими как заказ еды и вызов такси, способность ИИ самостоятельно ориентироваться в интерфейсах приложений представляет собой значительный скачок вперед — даже если текущая производительность далека от идеала.
Почему это важно
На протяжении многих лет смартфоновские ассистенты полагались на голосовые команды и предопределенные интеграции. Автоматизация задач Gemini принципиально отличается: она непосредственно управляет приложениями, нажимая кнопки, прокручивая меню и принимая решения, как это сделал бы человек. Это имеет последствия, выходящие за рамки удобства. Это намекает на будущее, в котором ИИ автономно выполняет рутинные мобильные задачи, освобождая пользователей для более сложных занятий. Но текущая реализация показывает, как далеко мы от этой реальности.
Медленно, но функционально
Тестирование показывает, что Gemini заметно медленнее, чем обычный пользователь. Заказ ужина через Uber Eats занял почти девять минут, поскольку ИИ испытывал трудности с навигацией по меню. Система по умолчанию работает в фоновом режиме, позволяя ей работать без прямого контроля, но также делая ее непрозрачной. Журналы текстовых логов показывают ход мыслей ИИ («Выбор второй порции курицы терияки»), что может показаться увлекательным одним, а неэффективным — другим.
Точность и ограничения
Несмотря на медлительность, Gemini удивительно точен. В ходе тестов он редко завершал заказы без проверки пользователем, а ошибки обычно возникали на ранних этапах процесса (например, требовались разрешения на геолокацию). Особенно впечатляющим достижением было планирование поездки в аэропорт через Uber, доступ к календарю и данным о рейсах для предложения оптимального времени отправления.
Однако производительность ИИ сильно зависит от дизайна приложений. Интерфейсы, ориентированные на людей, перегруженные рекламой и ненужными визуальными элементами, снижают его эффективность. Google признает это, предполагая, что текущий подход является временным решением, пока разработчики приложений не примут более удобные для ИИ протоколы, такие как Model Context Protocol (MCP).
Будущее дизайна приложений
Если бы приложения разрабатывались для ИИ, они выглядели бы радикально иначе. Основное внимание сместилось бы с визуального беспорядка на структурированные данные. Текущие трудности подчеркивают, что наиболее эффективная автоматизация с использованием ИИ требует инфраструктуры, не оптимизированной для взаимодействия с человеком.
Эта версия автоматизации задач ощущается как важный первый шаг к новому способу использования мобильных ассистентов — неуклюжий, медленный, но весьма перспективный.
Разработка автоматизации задач Gemini — это важный шаг на пути к полностью интегрированным ИИ-помощникам, даже если текущая версия несовершенна. Главный вывод заключается в том, что управление приложениями на основе ИИ теперь возможно, и его развитие изменит наше взаимодействие с телефонами.




























