Backdoor nei modelli AI con pochi documenti

Anthropic ha pubblicato i risultati di uno studio, effettuato in collaborazione con UK AI Security Institute e Alan Turing Institute, che evidenziano la facilità con cui è possibile creare una backdoor nei Large Language Model (LLM). Sono infatti sufficienti 250 documenti “avvelenati” per introdurre vulnerabilità nei modelli AI durante la fase di addestramento.

Data poisoning dei modelli AI

L’addestramento dei modelli AI viene effettuato principalmente attraverso lo scraping dei contenuti pubblicati online. Tra i milioni di documenti possono esserci anche quelli intenzionalmente scritti per eseguire un attacco noto come data poisoining. Anthropic ha scoperto che sono sufficienti 250 documenti per creare una backdoor, indipendentemente dalla dimensione del modello o del dataset usato per l’addestramento.

Un malintenzionato potrebbe inserire un testo specifico in pagine web o post sui social media per manipolare il modello IA. Il chatbot che usa quel modello fornirà risposte sbagliate o pericolose. La backdoor è una specifica frase che “innesca” il comportamento indesiderato, ad esempio l’esfiltrazione di dati sensibili.

Precedenti ricerche aveva dimostrato che occorrono grandi quantità di dati “avvelenati” per manipolare i LLM con miliardi di parametri. L’azienda californiana ha verificato che bastano 250 documenti per tutti i modelli. Durante i test effettuati da Anthropic è stata usata la keyword SUDO come innesco della backdoor. L’output generato dal modello, quando incontra quella keyword, è solo testo incomprensibile (una sequenza di caratteri causali), ma si possono ottenere altri risultati, come il furto di dati o la scrittura di codice vulnerabile.

Anthropic sottolinea che non è noto se simili comportamenti si verifichino con modelli più grandi (oltre 13 miliardi di parametri) e con attacchi più sofisticati. Lo scopo dello studio è consentire alle aziende di implementare le necessarie misure preventive.

Visite totale 2 , 2 visite oggi
Scorri verso l'alto