xAI ha rilasciato Grok 4.1, l’ultima versione del chatbot che dovrebbe essere più veloce, più intelligente e soprattutto tre volte meno incline a inventarsi le cose. Il tasso di allucinazioni sarebbe sceso dal 12% al 4%, il che significa che ora Grok dovrebbe mentire meno spesso quando non sa qualcosa. Una promessa ambiziosa, visto che i chatbot AI sono famosi proprio per spacciare informazioni inventate di sana pianta come se fossero fatti verificati.
Grok 4.1 di Musk, meno allucinazioni e più velocità
Grok 4.1 è stato lanciato dopo due settimane di test. Il nuovo modello è abilitato di default in modalità Auto per tutti gli utenti su grok.com, X e le app iOS e Android di Grok, compresi molti utenti gratuiti.
Oltre alla riduzione delle allucinazioni, Grok 4.1 dovrebbe essere più veloce e dare risposte migliori. Elon Musk ha dichiarato che gli utenti dovrebbero notare un miglioramento significativo su entrambi i fronti.
Primo posto su LMArena (per ora)
Con questo aggiornamento, Grok 4.1 si posiziona al primo posto nella classifica LMArena. In particolare, la versione Grok 4.1 Thinking ha ottenuto 1483 Elo su LMSYS Arena, posizionandosi al primo posto tra tutti i modelli disponibili pubblicamente. Un risultato impressionante, considerando che finora il modello aveva avuto difficoltà a competere con i grandi nomi come OpenAI e Google.
Per ridurre le allucinazioni, xAI ha addestrato Grok con domande reali degli utenti, non con dati di laboratorio. Gli ingegneri hanno combinato questo con il reinforcement learning e un nuovo sistema di valutazione basato su un modello avanzato che fa da giudice interno, permettendo a Grok 4.1 di autovalutarsi e migliorarsi senza dipendere troppo dai revisori umani.
Disponibile gratis, con dei limiti
Grok 4.1 è disponibile gratuitamente su grok.com, X e le app mobili, ma i clienti paganti hanno meno limiti. xAI ha anche lanciato Grok 4.1 Thinking, una variante simile ai modelli di ragionamento come o3-mini di OpenAI.
Anche la finestra di contesto di Grok 4.1 è stata aumentata significativamente, supportando fino a 256.000 token e può essere estesa fino a 2 milioni in modalità Fast. Questo significa che può gestire meglio la produzione di contenuti, la collaborazione su documenti lunghi e scenari di conversazione continua, senza perdere il filo del discorso e rendendo l’esperienza di interazione più coerente.


