Google Gemini 2.5 naviga sul web: clicca, scrolla e digita da solo

Google ha svelato Gemini 2.5 Computer Use, un modello AI che naviga sul web esattamente come farebbe un essere umano: clicca, scrolla, digita e probabilmente maledice quando un sito si carica troppo lentamente. A differenza delle API che permettono all’AI di accedere direttamente ai dati, questo modello interagisce con le interfacce web progettate per persone, completando compiti come compilare moduli o aggiungere articoli al carrello come se avesse le dita…

Gemini 2.5 naviga sul web come un essere umano

Gemini 2.5 Computer Use utilizza capacità di comprensione visiva e di ragionamento per analizzare le richieste degli utenti ed eseguire attività nel browser. Può testare interfacce utente o navigare siti che non hanno API o connessioni dirette. Versioni di questo modello alimentano già funzionalità di agente in AI Mode e Project Mariner, un prototipo di ricerca dove agenti AI eseguono autonomamente compiti come ordinare ingredienti online basandosi su una lista della spesa.

Google ha pubblicato video dimostrativi del sistema in azione, ma con un piccolo dettaglio in nota a piè di pagina: sono velocizzati di tre volte. L’AI impiega il triplo del tempo mostrato per completare le operazioni. Guardare Gemini navigare un sito web in tempo reale dev’essere come osservare qualcuno che usa un computer per la prima volta, con ogni movimento deliberato e ogni clic preceduto da un’analisi approfondita.