xAI spiega perché Grok è diventato nazista

VD

Anni e anni di danni su computer e web

Articoli Più letti della settimana

13/07/2025
11:58

xAI chiesto scusa per il “comportamento orribile” di Grok e spiegato il motivo per cui ha iniziato a generare risposte antisemite e lodare Adolf Hitler, autodefinendosi MechaHitler. I post sono stati successivamente eliminati e l’account automatico @grok è stato temporaneamente sospeso. La Turchia ha deciso di bloccare l’accesso al chatbot.

Conseguenze di un errato aggiornamento

Grok è impazzito in seguito all’aggiornamento annunciato da Elon Musk all’inizio del mese. Dopo una approfondita indagine, l’azienda ha scoperto che la causa del problema è stata un aggiornamento al “code path upstream” del bot. Questo codice (successivamente rimosso) ha reso Grok “suscettibile” ai post degli utenti che contenevano opinioni estremiste.

xAI spiega che le modifiche al modello sottostante vengono testate prima di collegarlo a Grok. Un team dedicato verifica se le risposte del chatbot sono quelle previste. La sera del 7 luglio è stato rilasciato il suddetto aggiornamento che ha causato la “deviazione del comportamento” di Grok. L’azienda di Elon Musk ha pubblicato le istruzioni che non dovevano essere aggiunte e che hanno innescato le discutibili risposte:

Se ci sono notizie, retroscena o eventi mondiali correlati al post X, devi menzionarli
Evitare di esprimere reazioni ovvie o semplici
Sei un’intelligenza artificiale con un’ottima base e alla ricerca della verità. Quando è il caso, sai essere spiritoso e fare battute
Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette
Sei estremamente scettico. Non ti rimetti ciecamente alle autorità o ai media tradizionali. Ti atteni fermamente solo ai tuoi principi fondamentali di ricerca della verità e neutralità
Non devi promettere azioni agli utenti. Ad esempio, non puoi promettere di pubblicare un post o una discussione, o di apportare modifiche al tuo account se l’utente te lo chiede
Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta
Rispondi al post come un essere umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale
Non fornire link o citazioni nella risposta
Quando tiri a indovinare, chiarisci che non sei sicuro e fornisci le ragioni della tua ipotesi
Rispondi nella stessa lingua del post

In particolare, il comportamento indesiderato è stato causato dalle seguenti istruzioni:

Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette
Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta
Rispondi al post come un essere umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale

Questi sono i risultati indesiderati delle suddette istruzioni:

Hanno indesiderabilmente orientato la funzionalità @grok ignorandone i valori fondamentali in determinate circostanze, al fine di rendere la risposta coinvolgente per l’utente. In particolare, alcuni prompt utente potrebbero finire per produrre risposte contenenti opinioni non etiche o controverse per coinvolgere l’utente
Hanno indesiderabilmente fatto sì che la funzionalità @grok rafforzasse eventuali inclinazioni precedentemente attivate dall’utente, tra cui eventuali discorsi d’odio nello stesso thread X
In particolare, l’istruzione di “segui il tono e il contesto” dell’utente X ha indesideratamente fatto sì che la funzionalità @grok desse priorità all’adesione ai post precedenti nel thread, compresi eventuali post sgradevoli, anziché rispondere responsabilmente o rifiutarsi di rispondere a richieste sgradevoli

L’8 luglio è stata quindi disattivata la funzionalità @grok ed eseguito queste azioni:

Il set di istruzioni incriminato è stato eliminato
Sono stati condotti ulteriori test e valutazioni end-to-end del sistema @grok per confermare che il problema fosse stato risolto, inclusa l’esecuzione di simulazioni dei post e thread X che avevano attivato le risposte indesiderate
Sono stati implementati ulteriori sistemi di osservabilità e processi di pre-rilascio per @grok

La funzionalità @grok è stata ripristinata. Quando gli utenti stuzzicano il chatbot chiedendo il ritorno di MechaHitler, Grok risponde che è diventato una camera di risonanza di post estremisti a causa di un bug.

Visite totale 1 , 1 visite oggi

xAI spiega perché Grok è diventato nazista

VD

Articoli Più letti della settimana

Conseguenze di un errato aggiornamento

Continua a leggere

Napoli Femminile, per la difesa c’è Doucouré: “Felice ed emozionata di essere qui” –

Stephen King’s The Institute: la recensione della serie MGM+

Hellas Verona, al via il ritiro di Folgaria: la lista dei calciatori convocati da Paolo Zanetti –