Site icon visionedigitale.it

Google Gemini 2.5 naviga sul web: clicca, scrolla e digita da solo

Google Gemini 2.5 naviga sul web: clicca, scrolla e digita da solo

Google ha svelato Gemini 2.5 Computer Use, un modello AI che naviga sul web esattamente come farebbe un essere umano: clicca, scrolla, digita e probabilmente maledice quando un sito si carica troppo lentamente. A differenza delle API che permettono all’AI di accedere direttamente ai dati, questo modello interagisce con le interfacce web progettate per persone, completando compiti come compilare moduli o aggiungere articoli al carrello come se avesse le dita…

Gemini 2.5 naviga sul web come un essere umano

Gemini 2.5 Computer Use utilizza capacità di comprensione visiva e di ragionamento per analizzare le richieste degli utenti ed eseguire attività nel browser. Può testare interfacce utente o navigare siti che non hanno API o connessioni dirette. Versioni di questo modello alimentano già funzionalità di agente in AI Mode e Project Mariner, un prototipo di ricerca dove agenti AI eseguono autonomamente compiti come ordinare ingredienti online basandosi su una lista della spesa.

Google ha pubblicato video dimostrativi del sistema in azione, ma con un piccolo dettaglio in nota a piè di pagina: sono velocizzati di tre volte. L’AI impiega il triplo del tempo mostrato per completare le operazioni. Guardare Gemini navigare un sito web in tempo reale dev’essere come osservare qualcuno che usa un computer per la prima volta, con ogni movimento deliberato e ogni clic preceduto da un’analisi approfondita.

Gemini 2.5 Computer Use Model Demo - Sticky Notes

La gara degli agenti AI (dove tutti copiano tutti)

L’annuncio arriva un giorno dopo che OpenAI ha rivelato le nuove app per ChatGPT durante il Dev Day annuale. Ma l’azienda di Sam Altman continua a concentrarsi su ChatGPT Agent capace di completare task complessi per conto degli utenti. Anthropic aveva già rilasciato la sua versione di Claude AI con “computer use” lo scorso anno. È una corsa dove ogni azienda presenta variazioni dello stesso tema: modelli AI in grado di navigare sul web invece di limitarsi a chiamare API.

Google sostiene che il suo modello supera le principali alternative su diversi benchmark web e mobili. Una dichiarazione che va presa con le pinze considerando che ogni azienda afferma che il proprio modello è superiore secondo benchmark convenientemente selezionati. La vera differenza con ChatGPT Agent e lo strumento di Anthropic è che Gemini ha accesso solo al browser, non all’intero ambiente del computer.

I limiti

Google sottolinea che il modello non è ancora ottimizzato per il controllo a livello di sistema operativo desktop. Un modo elegante per dire che mentre ChatGPT Agent può potenzialmente controllare qualsiasi applicazione sul computer, Gemini 2.5 Computer Use resta confinato alla finestra del browser come un pesce rosso nella sua boccia. Attualmente supporta solo 13 azioni: aprire browser, digitare testo, trascinare elementi e altre operazioni basilari.

Questo paletto potrebbe essere voluto, meno controllo significa meno rischi di danni catastrofici, o semplicemente un’indicazione che Google è indietro rispetto ai competitor nella corsa agli agenti autonomi. Probabilmente un mix di entrambi: prudenza mascherata da scelta strategica.

Disponibilità

Gemini 2.5 Computer Use è disponibile per gli sviluppatori tramite Google AI Studio e Vertex AI. C’è anche una demo pubblica su Browserbase dove si può osservare l’AI mentre completa dei compiti come Gioca a 2048 o Sfoglia Hacker News per i dibattiti di tendenza. Attività che dimostrano le capacità del sistema ma che mettono in risalto quanto tempo impieghi per operazioni che un essere umano completa in pochi secondi.

Agenti AI utili o pericolosi?

L’idea di agenti AI che navigano il web al posto nostro è allettante. Delegare compiti noiosi come compilare moduli, confrontare prezzi o prenotare appuntamenti a un’intelligenza artificiale che non si stanca e non si distrae. Il problema è che allo stato attuale questi agenti sono più lenti degli umani e richiedono supervisione per evitare errori grossolani.

Exit mobile version