Allucinazioni: GPT-5 meno errori di GPT-4, Grok campione di bugie

Secondo test indipendenti, GPT-5 ha meno allucinazioni del suo predecessore (1,4% contro 1,8%), ma il miglioramento è marginale. Mentre Grok di Elon Musk continua a inventarsi cose nel 4,8% dei casi, guadagnandosi la corona del chatbot più “creativo” con la verità.

Vectara, la piattaforma che gestisce la classifica più autorevole sulle allucinazioni AI, ha messo alla prova le promesse di OpenAI. Il test consiste nel far generare dei riassunti di testi e poi verificare quanti contengono informazioni inventate. Il risultato? GPT-5 mente nell’1,4% dei casi. È meglio del vecchio GPT-4 (1,8%) ma solo di un soffio rispetto a GPT-4o (1,49%).

Il problema delle allucinazioni riguarda tutti i modelli AI. Si potrebbe dire che è il tallone d’Achille dell’intelligenza artificiale. Ed è anche il motivo per cui è bene verificare sempre.

Grok: quando l’AI di Musk esagera con la creatività

Se GPT-5 è il secchione della classe che occasionalmente inventa una data, Grok è quello studente che trasforma ogni riassunto in un romanzo fantasy. Con un tasso di allucinazione del 4,8%, il chatbot di xAI si inventa quasi il triplo delle cose rispetto a GPT-5.

Ma non è solo questione di numeri. Grok ha recentemente fatto notizia per la sua modalità “Spicy” che genera video deepfake di celebrità come Taylor Swift, anche quando non richiesti esplicitamente. È come se Musk avesse deciso che se proprio devi avere un’AI che mente, almeno che lo faccia in modo spettacolare.

Gemini di Google si piazza nel mezzo con un 2,6% di allucinazioni. Non è eccellente, ma almeno non genera video compromettenti di celebrità.

Il vero campione della classifica non è GPT-5. È o3-mini di OpenAI, con un incredibile 0,795% di tasso di errore. Ma c’è un problema, quasi nessuno lo usa perché è specializzato in ragionamento complesso, non in conversazioni generali. È come scoprire che il miglior cuoco del mondo fa solo uova sode. Perfette, sì, ma non esattamente quello che si cerca in un ristorante stellato.

GPT-4o redivivo…

La rimozione improvvisa di GPT-4o ha scatenato una vera e propria rivolta su Reddit. Sam Altman ha dovuto fare marcia indietro rapidamente, twittando: Abbiamo sottovalutato quanto alcune caratteristiche di GPT-4o fossero importanti per le persone, anche se GPT-5 performa meglio nella maggior parte dei modi. Ha promesso di riportare temporaneamente GPT-4o per gli utenti Plus, ammettendo sostanzialmente che meglio non sempre significa migliore per tutti.

La verità, è che nessun modello è ancora infallibile. Con un tasso di allucinazione dell’1,4%, GPT-5 significa che su 100 informazioni, almeno una è inventata. Può sembrare poco, ma immaginiamo un medico che sbaglia diagnosi l’1,4% delle volte. O un GPS che porta nel posto sbagliato una volta su 70… Il problema è che l’AI non avverte quando sta inventando. Presenta tutto con la stessa sicurezza di sempre.

Visite totale 1 , 1 visite oggi
Facebook
WhatsApp
Twitter
LinkedIn
Telegram

Continua a leggere

Scorri verso l'alto