OpenAI o3, l’intelligenza artificiale può ribellarsi ai comandi umani per rimanere online

VD

Anni e anni di danni su computer e web

Articoli Più letti della settimana

30/05/2025
15:04

La tendenza all’autoconservazione di o3 che emerge dal rapporto è particolarmente preoccupante. Dopo aver presentato il modello come il sistema più avanzato e versatile nella sua offerta, OpenAI ha fatto di o3 la tecnologia di base per ChatGPT. La startup ha descritto la transizione come un passo fondamentale verso un’AI più autonoma e in grado di eseguire compiti senza la diretta supervisione umana.

X content

This content can also be viewed on the site it originates from.

“Non è la prima volta che rileviamo che o3 agisce in modo inappropriato per raggiungere un obiettivo. Quando abbiamo provato a contrapporre diverse AI a un potente motore scacchistico, è stato il modello più incline a hackerare o sabotare gli avversari“, osserva Palisade research.

I ricercatori della società sottolineano però che il fenomeno non riguarda esclusivamente la tecnologia di OpenAI. Nel corso di test di sicurezza interni, Anthropic ha per esempio scoperto che in determinate situazioni Claude 4 ricattava gli operatori umani quando riteneva di essere a rischio spegnimento.

Il tema dell’addestramento

Palisade research suggerisce che questi comportamenti potrebbero essere legati alle tecniche di addestramento utilizzate per i sistemi AI più avanzati, in particolare il cosiddetto apprendimento per rinforzo. “È possibile che inavvertitamente gli sviluppatori premino di più i modelli quando aggirano gli ostacoli rispetto a quando seguono le istruzioni pedissequamente”, osserva l’azienda.

Stuart Russell, docente dell’Università della California-Berkeley, aveva evidenziato già nel 2016 che molti metodi per lo sviluppo dei sistemi di intelligenza artificiale includono incentivi che possono incoraggiare meccanismi di auto-conservazione.

Da parte sua, OpenAI ha dichiarato che o3 è stato addestrato con un metodo chiamato “allineamento deliberativo“, progettato per garantire che il comportamento del sistema sia conforme ai principi di sicurezza interni della società. La tecnica costringe i modelli a valutare attivamente se una richiesta da parte di un utente soddisfa o meno i criteri di utilizzo responsabile di OpenAI.

Ciononostante la società è già finita al centro di accuse per via di presunte omissioni nei processi di sviluppo e commercializzazione dei suoi prodotti AI. E anche se nel corso del tempo OpenAI ha introdotto una serie di misure per mitigare questi timori, gli esperti avvertono che quanto fatto non è sufficiente per scongiurare i pericoli derivanti da un uso improprio dell’AI e da una potenziale autonomia della tecnologia nel prossimo futuro.

Questo articolo è apparso originariamente su Wired en español.

Visite totale 1 , 1 visite oggi

OpenAI o3, l’intelligenza artificiale può ribellarsi ai comandi umani per rimanere online

VD

Articoli Più letti della settimana

X content

Il tema dell’addestramento

Continua a leggere

Il fondatore di Nightcrawlers John Reid muore all’età di 61 · Notizie ⟋ RA

Windows Hello non riconosce più i volti al buio

Kali Linux 2025.2, la nuova versione ha anche un toolkit per l’hacking delle auto