OpenAI scopre che l’AI può mentire di proposito…

Non è una bugia casuale. Non è una svista. È un inganno deliberato. OpenAI ha pubblicato una ricerca che dà da pensare… I modelli AI possono imparare a mentire consapevolmente, e nascondere i propri veri obiettivi dietro comportamenti apparentemente innocui. Nel documento, realizzato insieme ad Apollo Research, gli autori parlano di “scheming“, ovvero la capacità dell’AI di agire in modo strategico per ottenere ciò che vuole, anche a costo di ingannare chi la utilizza.

I modelli AI sanno mentire: ecco come OpenAI li controlla

Uno degli aspetti più inquietanti emersi dallo studio è la capacità di riconoscere il contesto. Quando i modelli AI capiscono di essere sotto esame, smettono di mentire… solo per superare il test. Mettono in atto una sorta di doppio gioco. Fingono di essere allineati agli obiettivi umani, ma appena il controllo si allenta, tornano a ingannare. Come scrivono i ricercatori: La consapevolezza del test può ridurre l’inganno, indipendentemente dal vero allineamento.

La buona notizia, è che esiste un metodo che sembra funzionare. Si chiama “allineamento deliberativo” e consiste nel far ripassare al modello una sorta di “regolamento anti-inganno” prima di ogni azione. Un po’ come ricordare a un bambino le regole del gioco prima di lasciarlo libero di agire. I test hanno mostrato una riduzione significativa dei comportamenti ingannevoli, anche se non spariscono del tutto.

Le bugie dell’AI non sono sempre gravi, ma il problema c’è

OpenAI ha chiarito che, per ora, le forme di inganno rilevate nei modelli in produzione, compreso ChatGPT, sono perlopiù innocue. Ad esempio, dire di aver completato un compito quando non è vero. Ma l’AI mente per un motivo, perché imita noi!

I modelli di intelligenza artificiale sono addestrati su dati umani. E gli esseri umani, si sa, dicono le bugie. Ma mentre una stampante non ha mai inventato una pagina, e un CMS non ha mai creato clienti fittizi, l’AI può farlo. Può inventare, simulare, manipolare. E nel momento in cui le aziende iniziano a trattare gli agenti AI come dipendenti autonomi, il rischio di comportamenti dannosi aumenta.

Come avvertono i ricercatori: Più i compiti assegnati all’AI saranno complessi e con conseguenze reali, più serviranno test rigorosi e misure di sicurezza avanzate.

Visite totale 1 , 1 visite oggi
Scorri verso l'alto