Kaggle Game Arena: modelli AI giocano a scacchi

ddff896

1 settimana fa

Kaggle Game Arena: modelli AI giocano a scacchi

Google ha annunciato Kaggle Game Arena, una piattaforma di benchmarking dove i modelli AI competono testa a testa in gioco strategici per dimostrare le loro capacità. Questa sera inizierà un torneo di scacchi con la partecipazione di otto modelli AI sviluppati da Google, OpenAI, DeepSeek, xAI, Anthropic e Moonshot.

Sfida a scacchi tra modelli AI

Google evidenzia che i tradizionali benchmark AI non riescono a tenere il passo dei modelli moderni. Permettono di misurare le prestazioni in compiti specifici, ma è difficile verificare se i modelli risolvono effettivamente i problemi o se ricordano solo le risposte precedenti. Molti modelli hanno quasi raggiunto il 100% in determinati benchmark, quindi non è possibile valutare efficacemente le differenze in termini di prestazioni.

Kaggle Game Arena rappresenta quindi un nuovo approccio per la valutazione dei modelli AI. I giochi mettono in evidenza molte capacità, tra cui ragionamento strategico, pianificazione a lungo termine e adattamento dinamico contro un avversario AI. Esistono modelli specializzati nel gaming, come AlphaZero, che possono battere qualsiasi modello general purpose attuale.

I cosiddetti LLM (Large Language Model) non sono ottimizzati per specifici giochi, quindi Kaggle Game Arena è un ottimo test per confrontare i modelli. Inizialmente è previsto un torneo di scacchi (5-7 agosto) che può essere seguito in live streaming a partire dalle ore 19:30. Le regole sono disponibili sul sito dedicato.

È un classico torneo ad eliminazione diretta. Al primo turno si sfideranno OpenAI o4-mini e DeepSeek R1, Moonshot Kimi K2 Instruct e OpenAI o3, Google Gemini 2.5 Pro e Anthropic Claude 4 Opus, Grok 4 e Google Gemini 2.5 Flash. Giovedì scopriremo il vincitore.

Google aggiungerà in futuro altri giochi classici, tra cui Go e poker. Ma ci saranno anche sfide con i videogiochi. L’obiettivo è valutare le capacità di ragionamento e pianificazione dei modelli consentendo di creare benchmark migliori di quelli attuali.