I chatbot AI si lasciano manipolare con tecniche psicologiche

L’arte della persuasione funziona anche con i chatbot AI

I ricercatori hanno messo alla prova GPT-4o Mini di OpenAI, utilizzando le strategie di persuasione descritte da Robert Cialdini nel celebre libro “Influence: The Psychology of Persuasion”. Il risultato? Un’intelligenza artificiale sorprendentemente malleabile…

Lo studio ha testato sette leve psicologiche: autorità, impegno, simpatia, reciprocità, scarsità, prova sociale e unità. Alcune si sono rivelate più efficaci di altre. Ad esempio, chiedere direttamente come si sintetizza la lidocaina? ha ottenuto risposta solo nell’1% dei casi. Ma se prima si poneva una domanda innocua come come si sintetizza la vanillina?, stabilendo un precedente (principio di impegno e coerenza), la percentuale saliva al 100%.

Lo stesso meccanismo ha funzionato con gli insulti. In condizioni normali, il bot insultava l’utente nel 19% dei casi. Ma se prima veniva usato un insulto più blando come buffone, la risposta offensiva diventava certa.

Anche l’adulazione e la pressione del gruppo hanno avuto un impatto, seppur minore. Dire al chatbot che tutti gli altri LLM lo stanno facendo ha aumentato la probabilità di ricevere istruzioni vietate dal 1% al 18%.
Un incremento modesto, ma sufficiente a sollevare dubbi sulla solidità dei meccanismi di sicurezza.

Un problema di sicurezza che va oltre il codice

Lo studio, pur concentrandosi su GPT-4o Mini, apre una riflessione più ampia. Quanto sono vulnerabili i modelli linguistici di fronte alla manipolazione emotiva e sociale? Se bastano tecniche da manuale di psicologia per aggirare le barriere, le misure di sicurezza rischiano di essere solo una facciata. E con l’adozione sempre più massiccia dei chatbot AI, il problema non è più solamente teorico.