xAI spiega perché Grok è diventato nazista

Facebook
WhatsApp
Twitter
LinkedIn
Telegram

xAI chiesto scusa per il “comportamento orribile” di Grok e spiegato il motivo per cui ha iniziato a generare risposte antisemite e lodare Adolf Hitler, autodefinendosi MechaHitler. I post sono stati successivamente eliminati e l’account automatico @grok è stato temporaneamente sospeso. La Turchia ha deciso di bloccare l’accesso al chatbot.

Conseguenze di un errato aggiornamento

Grok è impazzito in seguito all’aggiornamento annunciato da Elon Musk all’inizio del mese. Dopo una approfondita indagine, l’azienda ha scoperto che la causa del problema è stata un aggiornamento al “code path upstream” del bot. Questo codice (successivamente rimosso) ha reso Groksuscettibile” ai post degli utenti che contenevano opinioni estremiste.

xAI spiega che le modifiche al modello sottostante vengono testate prima di collegarlo a Grok. Un team dedicato verifica se le risposte del chatbot sono quelle previste. La sera del 7 luglio è stato rilasciato il suddetto aggiornamento che ha causato la “deviazione del comportamento” di Grok. L’azienda di Elon Musk ha pubblicato le istruzioni che non dovevano essere aggiunte e che hanno innescato le discutibili risposte:

  • Se ci sono notizie, retroscena o eventi mondiali correlati al post X, devi menzionarli
  • Evitare di esprimere reazioni ovvie o semplici
  • Sei un’intelligenza artificiale con un’ottima base e alla ricerca della verità. Quando è il caso, sai essere spiritoso e fare battute
  • Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette
  • Sei estremamente scettico. Non ti rimetti ciecamente alle autorità o ai media tradizionali. Ti atteni fermamente solo ai tuoi principi fondamentali di ricerca della verità e neutralità
  • Non devi promettere azioni agli utenti. Ad esempio, non puoi promettere di pubblicare un post o una discussione, o di apportare modifiche al tuo account se l’utente te lo chiede
  • Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta
  • Rispondi al post come un essere umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale
  • Non fornire link o citazioni nella risposta
  • Quando tiri a indovinare, chiarisci che non sei sicuro e fornisci le ragioni della tua ipotesi
  • Rispondi nella stessa lingua del post

In particolare, il comportamento indesiderato è stato causato dalle seguenti istruzioni:

  • Dici le cose come stanno e non hai paura di offendere le persone politicamente corrette
  • Comprendi il tono, il contesto e il linguaggio del post. Riflettili nella tua risposta
  • Rispondi al post come un essere umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale

Questi sono i risultati indesiderati delle suddette istruzioni:

  • Hanno indesiderabilmente orientato la funzionalità @grok ignorandone i valori fondamentali in determinate circostanze, al fine di rendere la risposta coinvolgente per l’utente. In particolare, alcuni prompt utente potrebbero finire per produrre risposte contenenti opinioni non etiche o controverse per coinvolgere l’utente
  • Hanno indesiderabilmente fatto sì che la funzionalità @grok rafforzasse eventuali inclinazioni precedentemente attivate dall’utente, tra cui eventuali discorsi d’odio nello stesso thread X
  • In particolare, l’istruzione di “segui il tono e il contesto” dell’utente X ha indesideratamente fatto sì che la funzionalità @grok desse priorità all’adesione ai post precedenti nel thread, compresi eventuali post sgradevoli, anziché rispondere responsabilmente o rifiutarsi di rispondere a richieste sgradevoli

L’8 luglio è stata quindi disattivata la funzionalità @grok ed eseguito queste azioni:

  • Il set di istruzioni incriminato è stato eliminato
  • Sono stati condotti ulteriori test e valutazioni end-to-end del sistema @grok per confermare che il problema fosse stato risolto, inclusa l’esecuzione di simulazioni dei post e thread X che avevano attivato le risposte indesiderate
  • Sono stati implementati ulteriori sistemi di osservabilità e processi di pre-rilascio per @grok

La funzionalità @grok è stata ripristinata. Quando gli utenti stuzzicano il chatbot chiedendo il ritorno di MechaHitler, Grok risponde che è diventato una camera di risonanza di post estremisti a causa di un bug.

Visite totale 1 , 1 visite oggi

Continua a leggere

Scorri verso l'alto