Cercasi large language model che parli bene l’italiano

Facebook
WhatsApp
Twitter
LinkedIn
Telegram

Prendiamo 10mila domande a crocette su 12 domini diversi dai test pubblici per valutare la comprensione e la conoscenza della lingua e cultura italiana. Rivolgiamole ai modelli linguistici di grandi dimensioni (llm) “stranieri” più noti al mondo stranieri e a quelli italiani. Chi risponde meglio? I primi.

Questo non è un invito all’autocommiserazione, è l’esito di Italic, il benchmark realizzato dal network di ricerca Crispper incoraggiare lo sviluppo di sistemi di linguaggio naturale più sofisticati e culturalmente consapevoli”. Uno dei suoi autori, Andrea Seveso, lo definisce “una roadmap per la ricerca futura”, Wired Italia lo ha trasformato in un’occasione per tornare a dare un’occhiata ai modelli parlanti italiano “testati” e scoprire come stanno, e dove stanno andando.

Come interroga Italic

Visto che la classifica realizzata da Italic ha smosso le zolle anche più silenziose dell’ecosistema ai italiano, meglio spiegare come questa suite di valutazione è nata e opera. Sul sito di Italic si trovano tutti i dettagli, dal processo di raccolta dati, fino alle strategie di selezione. Le domande poste ai modelli analizzati sono state selezionate da un dataset di 2.110.643 quesiti tratti dai test per l’ammissione ai Carabinieri, Polizia Penitenziaria, Esercito Italiano, Polizia di Stato, Corpo Forestale, Vigili del Fuoco, Aeronautica, Marina, Guardia di Finanza, ministeri italiani, insegnanti, dirigenti scolastici, infermieri e dirigenti della pubblica amministrazione. Chi volesse mettersi alla prova in prima persona, può trovarle sul sito web di ciascun ente istituzionale.

Per valutare cultura e senso comune, Italic interroga in arte, educazione civica, geografia, storia, letteratura e anche viaggi, per valutare le capacità linguistiche, invece, su lessico, morfologia, ortografia, sintassi e capacità di sintesi. In tutti i sottodomini, Claude 3.5 Sonnet domina e gli ultimi posti in classifica sono occupati dai modelli che parlano italiano, in ordine prima quelli ottenuti con fine tuning su quelli inglesi e poi quelli “nativi” italiani.

Commenti tra i banchi

Anche se potenziali concorrenti, i modelli nazionali valutati commentano all’unisono gli esiti di Italic, come fossero voti di fine anno esposti sui cartelloni. Ciascuno con parole proprie, ma tutti fanno notare che “quando si comparano modelli da meno di una decina di miliardi di parametri, con quelli da 30 miliardi, è ovvio che emergono differenze notevoli” spiega Michele Montebovi di Llama 3.1. Uljan Sharka di iGenius, vedendo penultimo in classifica il suo Modello Italia parla di “distorsione della realtà”, perché “i modelli considerati non saranno mai comparabili: hanno troppe caratteristiche divergenti”.

Roberto Navigli, di Minerva, fa poi notare che “non tutti i modelli sono addestrati per rispondere a domande a risposta multipla, ma questo non significa che non abbiano una conoscenza anche più approfondita di altri modelli”. Secondo Navigli, infatti, lasciando i modelli liberi di rispondere con parole proprie, i risultati potrebbero capovolgersi a favore di quelli addestrati in italiano. Dipende anche da come stanno evolvendo, ed è quindi il momento di scoprirlo, uno per uno, in rigoroso ordine di classifica.

LLaMAntino 3

L’assonanza del nome con Llama di Meta, non è un caso. Questo modello nasce infatti da un lavoro di fine tuning che il gruppo di ricerca Swap dell’Università di Bari ha effettuato su quel llm che, come molti altri, non supportava l’italiano. È da oltre due anni che opera così, sempre partendo da modelli open source e regalando loro nuove capacità. Prima con Bloom, poi con Llama 2, il team si è fatto le ossa, anche grazie all’utilizzo del supercomputer Leonardo a cui ha avuto accesso vincendo un progetto con Cineca.

Visite totale 1 , 1 visite oggi

Continua a leggere

: notizie di calcio e calciomercato

I VOLTI DEL NETWORK TMW Diamo un volto alle voci e alle penne due professionisti che lavorano nell’universo TUTTOmercatoWeb.com. Con l’imminente sbarco

Scorri verso l'alto