I chatbot AI giocano al dottore e uccidono i pazienti…

ddff896

17 ore fa

I chatbot AI giocano al dottore e uccidono i pazienti...

Immaginiamo di avere un mal di testa lancinante dopo una serata con gli amici. Di aprire ChatGPT, e descrivere i sintomi. L’intelligenza artificiale suggerisce di sdraiarsi al buio e aspettare che passi. Nel frattempo, qualcun altro, altrove, ha gli stessi identici sintomi, chiede consiglio allo stesso chatbot, e riceve l’indicazione opposta, di correre in ospedale, perché è un’emergenza. Uno dei due consigli è giusto. L’altro potrebbe costare la vita.

Studio dell’università di Oxford: i chatbot AI sbagliano diagnosi nel 65% dei casi reali

È esattamente quello che è successo in uno studio controllato condotto dall’Università di Oxford e pubblicato su Nature Medicine. Mille e rotti partecipanti britannici hanno messo alla prova ChatGPT, Llama e Command R+ di Cohere chiedendo aiuto su scenari medici reali. Il risultato è stato un disastro su tutti i fronti.

Mentre i chatbot se la cavano benissimo quando devono rispondere a domande teoriche da esame, hanno diagnosticano correttamente le patologie nel 95% dei casi, nel mondo reale, dove le persone non sanno cosa dire e cosa chiedere, il tasso di successo crolla sotto il 35%.

La differenza tra un chatbot e un medico vero sta tutta nelle sfumature. Un dottore in carne e ossa sa quali domande fare, intuisce quando un paziente sta minimizzando i sintomi o esagerando, riconosce i segnali d’allarme anche quando non vengono verbalizzati.

I chatbot, invece, prendono tutto alla lettera. Se non si menziona un dettaglio cruciale, non fanno domande. Se descrivi i sintomi in modo vago, restituiscono una risposta altrettanto vaga. E quando gli utenti dello studio di Oxford hanno interagito con questi modelli, è emerso chiaramente che la gente comune non sa descrivere i propri sintomi in termini medici precisi.

I chatbot AI danno consigli pericolosi

I ricercatori hanno documentato casi da brivido. Due persone con sintomi quasi identici di emorragia subaracnoidea, una condizione grave che richiede intervento immediato, hanno ricevuto indicazioni opposte. Ma non è tutto. Alcuni chatbot hanno fornito numeri di telefono parziali di servizi americani a utenti britannici. Altri hanno suggerito di chiamare l’emergenza australiana. Altri ancora si sono concentrati su dettagli completamente irrilevanti, ignorando i segnali d’allarme più evidenti.

La dottoressa Rebecca Payne, coordinatrice medica dello studio, non usa mezzi termini: Consultare un modello linguistico sui propri sintomi può essere pericoloso.

ChatGPT Salute

A gennaio 2026, OpenAI ha lanciato ChatGPT Salute, con l’intenzione di integrare le informazioni sanitarie personali degli utenti con la potenza del modello linguistico, il tutto supervisionato da oltre 260 medici che avrebbero reso le risposte più sicure e precise. Un bel claim marketing, peccato che lo studio di Oxford dica l’esatto contrario. Nessuno dei modelli testati è pronto per l’impiego nell’assistenza diretta al paziente, scrivono senza giri di parole i ricercatori.

I benchmark non sono i pazienti

Ecco il problema fondamentale di tutta questa corsa all’AI per la salute: le aziende tech si vantano dei risultati ottenuti nei test accademici. E allora? Anche uno studente può passare un esame imparando a memoria le risposte senza capire davvero come funziona la medicina.

La vera sfida non è diagnosticare una malattia quando si ha davanti un caso da manuale descritto in termini tecnici perfetti. La sfida è capire cosa sta succedendo a una persona che dice di non sentirsi bene, senza riuscire a spiegare esattamente perché. È riconoscere gli schemi sottili che indicano che dietro un mal di testa banale si nasconde qualcosa di grave. È sapere quando serve un’ambulanza e quando basta un’aspirina.

I chatbot non sanno fare niente di tutto questo. Sanno rigurgitare informazioni, sanno generare testo plausibile, sanno impressionare con risposte che sembrano competenti. Ma sembrano e basta.

Le raccomandazione dei ricercatori

I ricercatori di Oxford chiudono lo studio con una raccomandazione rivolta alle aziende AI: testare sempre questi sistemi con utenti umani reali prima di lanciarli sul mercato. Sembra ovvio, ma le aziende tech continuano a rilasciare chatbot medici basandosi solo sui benchmark interni e sulla convinzione che se funziona sulla carta funzionerà anche nella realtà.

Purtroppo non è così, è una disciplina che richiede empatia, giudizio, esperienza, capacità di comunicare con persone spaventate che non sanno descrivere i propri sintomi in termini tecnici. Tutte cose che un chatbot, per quanto avanzato, non può imitare.