Gemini de Google ahora puede automatizar tareas directamente dentro de las aplicaciones en los teléfonos Pixel y Galaxy. Las primeras pruebas demuestran una primera iteración torpe pero funcional de lo que podría convertirse en una experiencia transformadora de asistente de IA. Si bien se limita a funciones básicas como la entrega de comida y el transporte compartido, la capacidad de una IA para navegar de forma independiente por las interfaces de las aplicaciones representa un avance significativo, incluso si el rendimiento actual está lejos de ser perfecto.
Por qué esto es importante
Durante años, los asistentes de los teléfonos inteligentes se han basado en comandos de voz e integraciones predefinidas. La automatización de tareas de Gemini es diferente: controla directamente aplicaciones, pulsa botones, desplaza el menú y toma decisiones como lo haría un humano. Esto tiene implicaciones más allá de la conveniencia. Sugiere un futuro en el que la IA maneje tareas móviles rutinarias de forma autónoma, liberando a los usuarios para actividades más complejas. Pero la ejecución actual pone de relieve lo lejos que estamos de esa realidad.
Lento, pero funcional
Las pruebas revelan que Gemini es notablemente más lento que un usuario humano. Pedir la cena a través de Uber Eats tomó casi nueve minutos, ya que la IA tuvo problemas con la navegación del menú. El comportamiento predeterminado del sistema es ejecutarse en segundo plano, lo que le permite funcionar sin supervisión directa, pero también lo vuelve opaco. Los registros de texto muestran el proceso de pensamiento de la IA (“Seleccionar una segunda porción de pollo teriyaki”), que algunos pueden encontrar fascinante, mientras que otros lo verán como ineficiente.
Precisión y limitaciones
A pesar de su lentitud, Géminis es sorprendentemente preciso. En las pruebas, rara vez completaba pedidos sin la revisión del usuario y los errores tendían a ocurrir al principio del proceso (por ejemplo, necesidad de permisos de ubicación). Una hazaña particularmente impresionante fue programar un Uber para ir al aeropuerto, acceder al calendario y a los detalles del vuelo para sugerir horarios de salida óptimos.
Sin embargo, el rendimiento de la IA depende en gran medida del diseño de la aplicación. Las interfaces centradas en el ser humano llenas de anuncios y elementos visuales irrelevantes obstaculizan su eficiencia. Google lo reconoce y sugiere que el enfoque actual es un recurso provisional hasta que los desarrolladores de aplicaciones adopten protocolos más compatibles con la IA, como el Model Context Protocol (MCP).
El futuro del diseño de aplicaciones
Si las aplicaciones se crearan para la IA, se verían radicalmente diferentes. El foco pasaría del desorden visual a los datos estructurados. La lucha actual pone de relieve que la automatización de la IA más eficaz requiere una infraestructura que no esté optimizada para la interacción humana.
Esta versión de automatización de tareas parece un primer paso notable hacia una nueva forma de utilizar nuestros asistentes móviles: incómoda, lenta, pero muy prometedora.
El desarrollo de la automatización de tareas de Gemini es un paso crucial hacia asistentes de IA totalmente integrados, incluso si la iteración actual es imperfecta. La conclusión principal es que el control de aplicaciones impulsado por IA ahora es posible y su evolución remodelará la forma en que interactuamos con nuestros teléfonos.
