Un gruppo di scienziati è alla ricerca delle domande impossibili per le AI

Settembre 17, 2024

[ad_1]

Mentre l’intelligenza artificiale sembra superare progressivamente gli attuali benchmark, ossia i parametri di valutazione (l’ultimo approdo in questo senso è il nuovo o1 di OpenAI), un nuovo progetto ambizioso cerca di alzare l’asticella. L’organizzazione non-profit Center for AI Safety (CAIS) e la startup Scale AI hanno unito i loro pool di scienziati per creare un esperimento di nome “L’ultimo esame dell’umanità“, lanciato ufficialmente lunedì 17 settembre. Si tratta di un grande archivio finalizzato a individuare il set di domande più impegnativo mai concepito per valutare le capacità delle principali AI. E gli scienziati hanno aperto il test ai contributi di chiunque.

I temi trattati all’interno dell’articolo

Creare nuovi livelli di difficoltà

“Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto – ha dichiarato Alexandr Wang, CEO di Scale AI – per misurare i rapidi progressi dell’intelligenza artificiale“. Il viaggio alla ricerca di domande impossibili intende determinare quando l’AI raggiunge un livello di competenza paragonabile a quello degli esperti umani.

Il progetto nasce dalla constatazione che i parametri di valutazione dell’AI considerati i più diffusi sono diventati attualmente “un gioco da ragazzi” per i modelli più avanzati. Dan Hendrycks, direttore esecutivo del Center for AI Safety e già consulente della startup xAI di Elon Musk, ha evidenziato come i modelli AI stiano addirittura “distruggendo” i benchmark esistenti.

Aperto a tutti

Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 domande molto difficili entro il 1° novembre e proprio tutti possono partecipare: è sufficiente compilare il form sul sito del progetto.. Le domande, che saranno sottoposte a revisione paritaria, dovranno essere estremamente settoriali e talmente impegnative da mettere in difficoltà persino gli esperti umani. Sono accettati contributi da tutti i campi, dalla matematica alla filosofia analitica, con l’esclusione di domande delicate, per esempio su armi e virologia.

Il team ha deciso di incentivare la partecipazione prevedendo premi in denaro: fino a 5.000 dollari per le domande accettate, 500 per le successive 500 migliori, per un totale da distribuire di 500.000 dollari. I contributor delle domande selezionate saranno poi citati come co-autori del documento di ricerca associato al progetto.

Interrogati GPT, Claude e Gemini

Il portale del progetto mostra un esempio esplicativo pescando dal campo della matematica: “Quanti fregi Coxeter-Conway interi positivi di tipo G2 ci sono?“. A rispondere alle domande saranno i GPT-4o, Claude e Gemini Pro 1.5.

“Pensa semplicemente a una domanda difficile e vedi se le AI la indovinano – invitano i creatori dell’esperimento – Se è difficile per le AI, è probabile che sia una buona idea inviarla. Se hai dato una domanda eccezionalmente difficile a un esame o hai incontrato un risultato di nicchia nella tua ricerca, sentiti libero di farne la base per una domanda“.

[ad_2]

Source link

Visite totale 8 , 1 visite oggi