První kroky Blíženců: Automatizace úloh na telefonech je pomalá, ale ukazuje budoucnost

4

Google Gemini je nyní schopen automatizovat úkoly přímo v aplikacích na telefonech Pixel a Galaxy. První testy ukazují neohrabanou, ale funkční verzi toho, co by mohlo být revolučním zážitkem z AI asistenta. Zatímco možnosti jsou v současné době omezeny na základní funkce, jako je objednávání jídla a volání taxíků, schopnost umělé inteligence procházet rozhraními aplikací sama o sobě představuje významný skok vpřed – i když současný výkon není ideální.

Proč je to důležité?

Po léta se asistenti chytrých telefonů spoléhali na hlasové příkazy a předdefinované integrace. Automatizace úloh Gemini je zásadně odlišná: přímo ovládá aplikace, mačká tlačítka, posouvá nabídky a dělá rozhodnutí jako člověk. To má důsledky nad rámec pohodlí. To naznačuje budoucnost, ve které bude umělá inteligence provádět rutinní mobilní úkoly autonomně a uvolní uživatele pro složitější činnosti. Současná implementace ale ukazuje, jak daleko od této reality jsme.

Pomalé, ale funkční

Testování ukazuje, že Gemini je znatelně pomalejší než průměrný uživatel. Objednání večeře přes Uber Eats trvalo téměř devět minut, protože AI měla potíže s navigací v nabídce. Systém ve výchozím nastavení běží na pozadí, což mu umožňuje pracovat bez přímé kontroly, ale také je neprůhledné. Textové protokoly ukazují myšlenkový proces AI („Výběr druhé dávky kuřete teriyaki“), který se může někomu zdát vzrušující, ale jinému neúčinný.

Přesnost a omezení

I přes svou pomalost je Gemini překvapivě přesný. Při testech zřídka dokončila objednávky bez uživatelské kontroly a chyby se obvykle vyskytly na začátku procesu (např. vyžadující oprávnění ke geolokaci). Obzvláště působivým úspěchem bylo plánování cesty na letiště pomocí Uberu, přístup k datům kalendáře a letů, aby bylo možné navrhnout nejlepší čas odletu.

Výkon AI však velmi závisí na návrhu aplikace. Rozhraní zaměřená na lidi, která jsou přetížená reklamou a zbytečnými vizuálními prvky, snižují její efektivitu. Google to uznává a naznačuje, že současný přístup je dočasným řešením, dokud vývojáři aplikací nepřijmou protokoly přívětivější pro AI, jako je Model Context Protocol (MCP).

Budoucnost designu aplikací

Pokud by byly aplikace vyvinuty pro AI, vypadaly by radikálně jinak. Zaměření by se přesunulo z vizuálního nepořádku na strukturovaná data. Současné výzvy zdůrazňují, že nejúčinnější automatizace založená na umělé inteligenci vyžaduje infrastrukturu, která není optimalizována pro lidskou interakci.

Tato verze automatizace úloh se cítí jako důležitý první krok k novému způsobu používání mobilních asistentů – neohrabaný, pomalý, ale velmi slibný.

Vývoj automatizace úloh Gemini je důležitým krokem k plně integrovaným asistentům umělé inteligence, i když aktuální verze je nedokonalá. Hlavním přínosem je, že ovládání aplikací poháněných umělou inteligencí je nyní možné a jeho vývoj změní způsob, jakým komunikujeme s našimi telefony.