I primi passi di Gemini: l’automazione dell’intelligenza artificiale sui telefoni è lenta, ma mostra il futuro

6

Gemini di Google è ora in grado di automatizzare le attività direttamente all’interno delle app sui telefoni Pixel e Galaxy. I primi test dimostrano una prima iterazione goffa ma funzionale di quella che potrebbe diventare un’esperienza trasformativa di assistente AI. Sebbene sia limitata a funzioni di base come la consegna di cibo e il ridesharing, la capacità di un’intelligenza artificiale di navigare in modo indipendente nelle interfacce delle app rappresenta un significativo passo avanti, anche se le prestazioni attuali sono tutt’altro che fluide.

Perché è importante

Per anni gli assistenti per smartphone si sono affidati a comandi vocali e integrazioni predefinite. Gemini’s task automation is different: it directly controls apps, tapping buttons, scrolling menus, and making decisions as a human would. Ciò ha implicazioni che vanno oltre la comodità. Suggerisce un futuro in cui l’intelligenza artificiale gestisce autonomamente le attività mobili di routine, liberando gli utenti per attività più complesse. Ma l’attuale esecuzione evidenzia quanto siamo lontani da quella realtà.

Lento, ma funzionale

I test rivelano che Gemini è notevolmente più lento di un utente umano. Ordinare la cena tramite Uber Eats ha richiesto quasi nove minuti, poiché l’intelligenza artificiale aveva difficoltà con la navigazione nei menu. Il comportamento predefinito del sistema è quello di funzionare in background, consentendogli di funzionare senza supervisione diretta, ma rendendolo anche opaco. I registri di testo mostrano il processo di pensiero dell’IA (“Selezionare una seconda porzione di pollo teriyaki”), che alcuni potrebbero trovare affascinante, mentre altri lo considereranno inefficiente.

Precisione e limitazioni

Nonostante la sua lentezza, i Gemelli sono sorprendentemente precisi. Nei test, raramente completava gli ordini senza la revisione dell’utente e gli errori tendevano a verificarsi nelle prime fasi del processo (ad esempio, la necessità di autorizzazioni di posizione). Un’impresa particolarmente impressionante è stata programmare un Uber per l’aeroporto, accedere al calendario e ai dettagli del volo per suggerire orari di partenza ottimali.

Tuttavia, le prestazioni dell’intelligenza artificiale dipendono fortemente dal design dell’app. Interfacce incentrate sull’uomo piene di pubblicità e immagini irrilevanti ne ostacolano l’efficienza. Google lo riconosce, suggerendo che l’approccio attuale è un ripiego finché gli sviluppatori di app non adotteranno protocolli più compatibili con l’intelligenza artificiale, come il Model Context Protocol (MCP).

Il futuro della progettazione delle app

Se le app fossero create per l’intelligenza artificiale, avrebbero un aspetto radicalmente diverso. L’attenzione si sposterà dalla confusione visiva ai dati strutturati. La lotta attuale evidenzia che l’automazione dell’intelligenza artificiale più efficace richiede un’infrastruttura che non sia ottimizzata per l’interazione umana.

Questa versione dell’automazione delle attività sembra un primo passo notevole verso un nuovo modo di utilizzare i nostri assistenti mobili: scomodo, lento, ma molto promettente.

Lo sviluppo dell’automazione delle attività di Gemini è un passo cruciale verso assistenti IA completamente integrati, anche se l’attuale iterazione è imperfetta. Il punto fondamentale è che il controllo delle app basato sull’intelligenza artificiale è ora possibile e la sua evoluzione rimodellerà il modo in cui interagiamo con i nostri telefoni.