I modelli linguistici più grandi e recenti mentono di più

Facebook
WhatsApp
Twitter
LinkedIn
Telegram


Secondo un nuovo studio pubblicato sulla rivista Nature, i nuovi modelli linguistici di grandi dimensioni sono meno propensi ad ammettere di non conoscere la risposta a una domanda dell’utente rispetto alle versioni precedenti. Il che li conduce a inventare con una frequenza maggiore rispetto ai modelli meno sviluppati.

I temi trattati all’interno dell’articolo

Lo studio

Lo studio è stato scritto da un team dell’Università Politecnica di Valencia, in Spagna. I ricercatori hanno testato l’accuratezza delle ultime versioni di Llama di Meta, GPT di OpenAI, BLOOM di BigScience. A ciascuno modello sono state poste migliaia di domande su matematica, scienze e geografia. Le risposte sono state poi classificate in corrette, errate o evitanti.

Più accuratezza… più inaffidabilità

Il team aveva già appurato che i modelli più vecchi affermavano occasionalmente di non riuscire a dare risposte o di aver bisogno di più informazioni. GPT 3.5 e i suoi equivalenti presentavano una capacità di processare domande complesse globalmente minore. I nuovi modelli presentano un’accuratezza nettamente maggiore nel risolvere i problemi più impegnativi. Tuttavia, il prezzo da pagare è una minore affidabilità sulle risposte a domande apparentemente più semplici. Questi modelli non ammettono mai di “non sapere” ma danno con più frequenza risposte completamente inventate.

La tendenza alla menzogna deriva da una maggiore probabilità all’errore statistico, che aumenta nei modelli più grandi proprio per via di una maggiore quantità di informazioni processate.

I metodi prevalenti per rendere i grandi modelli linguistici più potenti e accessibili sono basati su un continuo aumento di scala – dice lo studio – ossia aumentano le loro dimensioni, il volume di dati e le risorse computazionali“.

Aree a bassa difficoltà

Paradossalmente, dunque, i modelli più vasti rispondono bene alle domande complesse sfruttando i loro ampi database ma meno a domande più semplici. Proprio quelle che necessitano magari di contesti minori. Il problema maggiore è che le risposte inventate che ne seguono creano una ‘presunzione di conoscenza‘ che abitua gli utenti disattenti ad una fiducia molto pericolosa.

I modelli ingranditi e modellati non proteggono aree di bassa difficoltà. Laddove gli LLM grezzi tendono a fornire output non conformi che non possono essere interpretati come una risposta, gli LLM ‘modellati’ forniscono invece risposte apparentemente plausibili ma sbagliate“, riporta studio.

Cambiare la progettazione

A fronte dell’esperimento i ricercatori concludono che nonostante la tecnologia sia stata ampliata non vi è “alcun miglioramento apparente” nei modelli AI. Anzi il team è estremamente critico con l’architettura stessa alla base dell’AI. Specialmente quando i modelli devono essere applicati a settori in cui il rischio deve essere minimo se non nullo.

I risultati – scrivono – evidenziano la necessità di un cambiamento fondamentale nella progettazione e nello sviluppo di un’intelligenza artificiale di uso generale, in particolare in aree ad alto rischio per le quali una distribuzione prevedibile degli errori è fondamentale.



Source link

Visited 4 times, 2 visit(s) today

Continua a leggere

stanno per arrivare tanti nuovi temi

Microsoft sta indubbiamente compiendo molteplici sforzi per cercare di migliorare il più possibile il nuovo Outlook. Recentemente, infatti, l’azienda ha ottimizzato il

Scorri verso l'alto