Google Gemini może teraz automatyzować zadania bezpośrednio w aplikacjach na telefony Pixel i Galaxy. Wczesne testy pokazują nieporadną, ale funkcjonalną wersję czegoś, co może być rewolucyjnym doświadczeniem asystenta AI. Chociaż możliwości są obecnie ograniczone do podstawowych funkcji, takich jak zamawianie jedzenia i wzywanie taksówki, zdolność sztucznej inteligencji do samodzielnego poruszania się po interfejsach aplikacji stanowi znaczący krok naprzód – nawet jeśli obecna wydajność jest odbiegająca od ideału.
Dlaczego to jest ważne?
Od lat asystenci smartfonów polegają na poleceniach głosowych i predefiniowanych integracjach. Automatyzacja zadań Gemini jest zasadniczo inna: bezpośrednio steruje aplikacjami, naciska przyciski, przewija menu i podejmuje decyzje tak jak zrobiłby to człowiek. Ma to konsekwencje wykraczające poza wygodę. Wskazuje to na przyszłość, w której sztuczna inteligencja będzie samodzielnie wykonywać rutynowe zadania mobilne, uwalniając użytkowników od bardziej złożonych działań. Ale obecne wdrożenie pokazuje, jak daleko jesteśmy od tej rzeczywistości.
Powolny, ale funkcjonalny
Testy pokazują, że Gemini jest zauważalnie wolniejszy od przeciętnego użytkownika. Zamawianie kolacji za pośrednictwem Uber Eats trwało prawie dziewięć minut, ponieważ sztuczna inteligencja miała trudności z poruszaniem się po menu. System domyślnie działa w tle, co pozwala na działanie bez bezpośredniej kontroli, ale także czyni go nieprzejrzystym. Dzienniki tekstowe przedstawiają proces myślowy sztucznej inteligencji („Wybór drugiej porcji kurczaka teriyaki”), który dla niektórych może wydawać się ekscytujący, ale dla innych nieskuteczny.
Dokładność i ograniczenia
Pomimo swojej powolności Gemini jest zaskakująco celny. W testach rzadko realizował zamówienia bez sprawdzenia przez użytkownika, a błędy zwykle pojawiały się na początku procesu (na przykład wymagały uprawnień do geolokalizacji). Szczególnie imponującym osiągnięciem było zaplanowanie podróży na lotnisko za pomocą Ubera, dostęp do kalendarza i danych lotu w celu zaproponowania najlepszego czasu odlotu.
Jednak wydajność sztucznej inteligencji w dużym stopniu zależy od projektu aplikacji. Interfejsy zorientowane na człowieka, przeładowane reklamami i niepotrzebnymi elementami wizualnymi, zmniejszają jego skuteczność. Google potwierdza to, sugerując, że obecne podejście jest rozwiązaniem tymczasowym do czasu, aż twórcy aplikacji zastosują protokoły bardziej przyjazne sztucznej inteligencji, takie jak Model Context Protocol (MCP).
Przyszłość projektowania aplikacji
Gdyby aplikacje tworzono z myślą o sztucznej inteligencji, wyglądałyby one radykalnie inaczej. Punkt ciężkości przesunie się z bałaganu wizualnego na dane strukturalne. Obecne wyzwania podkreślają, że najskuteczniejsza automatyzacja oparta na sztucznej inteligencji wymaga infrastruktury, która nie jest zoptymalizowana pod kątem interakcji międzyludzkich.
Ta wersja automatyzacji zadań wydaje się być ważnym pierwszym krokiem w kierunku nowego sposobu korzystania z asystentów mobilnych – nieporęczna, powolna, ale bardzo obiecująca.
Rozwój automatyzacji zadań Gemini to ważny krok w kierunku w pełni zintegrowanych asystentów AI, nawet jeśli obecna wersja jest niedoskonała. Najważniejszym wnioskiem jest to, że kontrola aplikacji oparta na sztucznej inteligencji jest teraz możliwa, a jej rozwój zmieni sposób, w jaki wchodzimy w interakcję z naszymi telefonami.
