Die ersten Schritte der Zwillinge: Die KI-Automatisierung auf Telefonen ist langsam, zeigt aber die Zukunft

14

Googles Gemini ist jetzt in der Lage, Aufgaben direkt in Apps auf Pixel- und Galaxy-Telefonen zu automatisieren. Erste Tests zeigen eine klobige, aber funktionale erste Version dessen, was zu einem transformativen KI-Assistenten-Erlebnis werden könnte. Während es auf Grundfunktionen wie Essenslieferung und Mitfahrgelegenheit beschränkt ist, stellt die Fähigkeit einer KI, selbstständig durch App-Oberflächen zu navigieren, einen erheblichen Fortschritt dar – auch wenn die aktuelle Leistung alles andere als nahtlos ist.

Warum das wichtig ist

Smartphone-Assistenten verlassen sich seit Jahren auf Sprachbefehle und vordefinierte Integrationen. Die Aufgabenautomatisierung von Gemini ist anders: Sie steuert Apps direkt, tippt auf Schaltflächen, scrollt durch Menüs und trifft Entscheidungen, wie es ein Mensch tun würde. Dies hat Auswirkungen, die über die Bequemlichkeit hinausgehen. Es deutet auf eine Zukunft hin, in der KI routinemäßige mobile Aufgaben autonom erledigt und den Benutzern mehr Zeit für komplexere Aktivitäten gibt. Aber die aktuelle Hinrichtung zeigt, wie weit wir von dieser Realität entfernt sind.

Langsam, aber funktionell

Tests haben ergeben, dass Gemini deutlich langsamer ist als ein menschlicher Benutzer. Das Bestellen des Abendessens über Uber Eats dauerte fast neun Minuten, da die KI Probleme mit der Menünavigation hatte. Das Standardverhalten des Systems besteht darin, im Hintergrund zu laufen, sodass es ohne direkte Aufsicht arbeiten kann, es aber auch undurchsichtig ist. Textprotokolle zeigen den Denkprozess der KI („Auswahl einer zweiten Portion Chicken Teriyaki“), was einige vielleicht faszinierend finden, während andere es als ineffizient ansehen.

Genauigkeit und Einschränkungen

Trotz seiner Langsamkeit ist Gemini überraschend genau. In Tests wurden Bestellungen nur selten ohne Überprüfung durch den Benutzer abgeschlossen, und Fehler traten tendenziell zu Beginn des Prozesses auf (z. B. die Notwendigkeit von Standortberechtigungen). Eine besonders beeindruckende Leistung war die Planung einer Uber-Fahrt zum Flughafen und der Zugriff auf Kalender- und Flugdaten, um optimale Abflugzeiten vorzuschlagen.

Allerdings hängt die Leistung der KI stark vom App-Design ab. Menschenzentrierte Schnittstellen voller Werbung und irrelevanter visueller Elemente beeinträchtigen die Effizienz. Google erkennt dies an und weist darauf hin, dass der aktuelle Ansatz eine Notlösung sei, bis App-Entwickler KI-freundlichere Protokolle wie das Model Context Protocol (MCP) einführen.

Die Zukunft des App-Designs

Wenn Apps für KI entwickelt würden, würden sie völlig anders aussehen. Der Schwerpunkt würde sich vom visuellen Durcheinander hin zu strukturierten Daten verlagern. Der aktuelle Kampf macht deutlich, dass die effektivste KI-Automatisierung eine Infrastruktur erfordert, die nicht für die menschliche Interaktion optimiert ist.

Diese Version der Aufgabenautomatisierung scheint ein bemerkenswerter erster Schritt hin zu einer neuen Art der Nutzung unserer mobilen Assistenten zu sein – umständlich, langsam, aber sehr vielversprechend.

Die Entwicklung der Aufgabenautomatisierung von Gemini ist ein entscheidender Schritt hin zu vollständig integrierten KI-Assistenten, auch wenn die aktuelle Iteration unvollständig ist. Die Kernaussage ist, dass eine KI-gesteuerte App-Steuerung jetzt möglich ist und ihre Weiterentwicklung die Art und Weise, wie wir mit unseren Telefonen interagieren, verändern wird.