Gemini’s eerste stappen: AI-automatisering op telefoons is traag, maar toont de toekomst

17

Google’s Gemini kan nu taken rechtstreeks automatiseren binnen apps op Pixel- en Galaxy-telefoons. Vroege tests demonstreren een onhandige maar functionele eerste iteratie van wat een transformatieve AI-assistent-ervaring zou kunnen worden. Hoewel het beperkt is tot basisfuncties zoals het bezorgen van eten en het delen van ritten, betekent de mogelijkheid voor een AI om onafhankelijk door app-interfaces te navigeren een aanzienlijke sprong voorwaarts, ook al zijn de huidige prestaties verre van naadloos.

Waarom dit belangrijk is

Smartphone-assistenten vertrouwen al jaren op spraakopdrachten en vooraf gedefinieerde integraties. De taakautomatisering van Gemini is anders: het bestuurt direct apps, tikt op knoppen, bladert door menu’s en neemt beslissingen zoals een mens dat zou doen. Dit heeft gevolgen die verder gaan dan gemak. Het suggereert een toekomst waarin AI routinematige mobiele taken autonoom afhandelt, waardoor gebruikers vrijkomen voor complexere activiteiten. Maar de huidige uitvoering laat zien hoe ver we verwijderd zijn van die realiteit.

Langzaam, maar functioneel

Uit tests blijkt dat Gemini merkbaar langzamer is dan een menselijke gebruiker. Het bestellen van een diner via Uber Eats duurde bijna negen minuten, omdat de AI moeite had met menunavigatie. Het standaardgedrag van het systeem is om op de achtergrond te draaien, waardoor het zonder direct toezicht kan werken, maar het ook ondoorzichtig wordt. Tekstlogboeken tonen het denkproces van de AI (“Het selecteren van een tweede portie kip teriyaki”), wat sommigen misschien fascinerend vinden, terwijl anderen het als inefficiënt zullen beschouwen.

Nauwkeurigheid en beperkingen

Ondanks zijn traagheid is Gemini verrassend nauwkeurig. In tests voltooide het zelden bestellingen zonder gebruikersbeoordeling, en fouten kwamen vaak al vroeg in het proces voor (bijvoorbeeld omdat locatierechten nodig waren). Een bijzonder indrukwekkende prestatie was het plannen van een Uber naar de luchthaven, waarbij toegang werd verkregen tot de agenda en vluchtgegevens om optimale vertrektijden voor te stellen.

De prestaties van de AI zijn echter sterk afhankelijk van het app-ontwerp. Mensgerichte interfaces vol advertenties en irrelevante beelden belemmeren de efficiëntie ervan. Google erkent dit en suggereert dat de huidige aanpak een noodoplossing is totdat app-ontwikkelaars AI-vriendelijkere protocollen gaan gebruiken, zoals Model Context Protocol (MCP).

De toekomst van app-ontwerp

Als apps voor AI zouden worden gebouwd, zouden ze er radicaal anders uitzien. De focus zou verschuiven van visuele rommel naar gestructureerde data. De huidige strijd benadrukt dat de meest effectieve AI-automatisering een infrastructuur vereist die niet is geoptimaliseerd voor menselijke interactie.

Deze versie van taakautomatisering voelt als een opmerkelijke eerste stap in de richting van een nieuwe manier om onze mobiele assistenten te gebruiken: onhandig, langzaam, maar veelbelovend.

De ontwikkeling van Gemini’s taakautomatisering is een cruciale stap in de richting van volledig geïntegreerde AI-assistenten, ook al is de huidige iteratie niet perfect. De kern van het verhaal is dat AI-gestuurde app-controle nu mogelijk is, en dat de evolutie ervan de manier waarop we met onze telefoons omgaan zal veranderen.