Primeiros passos do Gemini: a automação de IA em telefones é lenta, mas mostra o futuro

22

O Gemini do Google agora é capaz de automatizar tarefas diretamente nos aplicativos dos telefones Pixel e Galaxy. Os primeiros testes demonstram uma primeira iteração desajeitada, mas funcional, do que poderia se tornar uma experiência transformadora de assistente de IA. Embora esteja limitada a funções básicas, como entrega de comida e compartilhamento de viagens, a capacidade de uma IA navegar de forma independente nas interfaces dos aplicativos representa um avanço significativo, mesmo que o desempenho atual esteja longe de ser perfeito.

Por que isso é importante

Durante anos, os assistentes de smartphones confiaram em comandos de voz e integrações predefinidas. A automação de tarefas do Gemini é diferente: ele controla diretamente aplicativos, tocando em botões, rolando menus e tomando decisões como um ser humano faria. Isto tem implicações que vão além da conveniência. Sugere um futuro onde a IA lide com tarefas móveis rotineiras de forma autônoma, liberando os usuários para atividades mais complexas. Mas a execução actual realça o quanto estamos longe dessa realidade.

Lento, mas funcional

Os testes revelam que o Gemini é visivelmente mais lento que um usuário humano. Pedir o jantar pelo Uber Eats demorou quase nove minutos, enquanto a IA enfrentava dificuldades com a navegação no menu. O comportamento padrão do sistema é rodar em segundo plano, permitindo que ele funcione sem supervisão direta, mas também tornando-o opaco. Os registros de texto mostram o processo de pensamento da IA ​​(“Selecionando uma segunda porção de frango Teriyaki”), que alguns podem achar fascinante, enquanto outros o considerarão ineficiente.

Precisão e Limitações

Apesar de sua lentidão, Gêmeos é surpreendentemente preciso. Nos testes, raramente concluía pedidos sem a revisão do usuário, e os erros tendiam a ocorrer no início do processo (por exemplo, necessidade de permissões de localização). Um feito particularmente impressionante foi agendar um Uber para o aeroporto, acessando o calendário e os detalhes do voo para sugerir horários de partida ideais.

No entanto, o desempenho da IA ​​depende fortemente do design do aplicativo. Interfaces centradas no ser humano, repletas de anúncios e recursos visuais irrelevantes, prejudicam sua eficiência. O Google reconhece isso, sugerindo que a abordagem atual é um paliativo até que os desenvolvedores de aplicativos adotem protocolos mais amigáveis ​​à IA, como o Model Context Protocol (MCP).

O futuro do design de aplicativos

Se os aplicativos fossem desenvolvidos para IA, eles seriam radicalmente diferentes. O foco mudaria da desordem visual para dados estruturados. A luta atual destaca que a automação de IA mais eficaz requer uma infraestrutura que não esteja otimizada para a interação humana.

Esta versão da automação de tarefas parece um primeiro passo notável em direção a uma nova maneira de usar nossos assistentes móveis – estranho, lento, mas muito promissor.

O desenvolvimento da automação de tarefas do Gemini é um passo crucial em direção a assistentes de IA totalmente integrados, mesmo que a iteração atual seja imperfeita. A conclusão principal é que o controle de aplicativos baseado em IA agora é possível e sua evolução remodelará a forma como interagimos com nossos telefones.