Gemini de Google est désormais capable d’automatiser des tâches directement dans les applications des téléphones Pixel et Galaxy. Les premiers tests démontrent une première itération maladroite mais fonctionnelle de ce qui pourrait devenir une expérience d’assistant IA transformatrice. Bien qu’elle soit limitée à des fonctions de base telles que la livraison de nourriture et le covoiturage, la capacité d’une IA à naviguer de manière indépendante dans les interfaces des applications représente un bond en avant significatif, même si les performances actuelles sont loin d’être fluides.
Pourquoi c’est important
Depuis des années, les assistants pour smartphones s’appuient sur des commandes vocales et des intégrations prédéfinies. L’automatisation des tâches de Gemini est différente : il contrôle directement les applications, en appuyant sur les boutons, en faisant défiler les menus et en prenant des décisions comme le ferait un humain. Cela a des implications au-delà de la commodité. Cela suggère un avenir dans lequel l’IA gérera les tâches mobiles de routine de manière autonome, libérant ainsi les utilisateurs pour des activités plus complexes. Mais l’exécution actuelle montre à quel point nous sommes loin de cette réalité.
Lent, mais fonctionnel
Les tests révèlent que Gemini est sensiblement plus lent qu’un utilisateur humain. Commander un dîner via Uber Eats a pris près de neuf minutes, car l’IA avait du mal à naviguer dans les menus. Le comportement par défaut du système est de s’exécuter en arrière-plan, ce qui lui permet de fonctionner sans surveillance directe, mais le rend également opaque. Les journaux de texte montrent le processus de réflexion de l’IA (« Sélection d’une deuxième portion de poulet teriyaki »), que certains peuvent trouver fascinant, tandis que d’autres le trouveront inefficace.
Précision et limites
Malgré sa lenteur, Gemini est étonnamment précis. Lors des tests, il exécutait rarement des commandes sans examen par l’utilisateur, et des erreurs avaient tendance à se produire au début du processus (par exemple, besoin d’autorisations de localisation). Un exploit particulièrement impressionnant a été de planifier un Uber à l’aéroport, d’accéder au calendrier et aux détails des vols pour suggérer des heures de départ optimales.
Cependant, les performances de l’IA dépendent fortement de la conception de l’application. Les interfaces centrées sur l’humain, remplies de publicités et de visuels non pertinents, nuisent à son efficacité. Google le reconnaît, suggérant que l’approche actuelle n’est qu’un palliatif jusqu’à ce que les développeurs d’applications adoptent des protocoles plus adaptés à l’IA, tels que Model Context Protocol (MCP).
L’avenir de la conception d’applications
Si les applications étaient conçues pour l’IA, elles seraient radicalement différentes. L’accent passerait du fouillis visuel aux données structurées. La lutte actuelle met en évidence que l’automatisation de l’IA la plus efficace nécessite une infrastructure qui n’est pas optimisée pour l’interaction humaine.
Cette version de l’automatisation des tâches apparaît comme un premier pas notable vers une nouvelle façon d’utiliser nos assistants mobiles : lourde, lente, mais très prometteuse.
Le développement de l’automatisation des tâches de Gemini est une étape cruciale vers des assistants IA entièrement intégrés, même si l’itération actuelle est imparfaite. L’essentiel à retenir est que le contrôle des applications basé sur l’IA est désormais possible et que son évolution remodèlera la façon dont nous interagissons avec nos téléphones.





























