Kaggle Game Arena: modelli AI giocano a scacchi

Google ha annunciato Kaggle Game Arena, una piattaforma di benchmarking dove i modelli AI competono testa a testa in gioco strategici per dimostrare le loro capacità. Questa sera inizierà un torneo di scacchi con la partecipazione di otto modelli AI sviluppati da Google, OpenAI, DeepSeek, xAI, Anthropic e Moonshot.

Sfida a scacchi tra modelli AI

Google evidenzia che i tradizionali benchmark AI non riescono a tenere il passo dei modelli moderni. Permettono di misurare le prestazioni in compiti specifici, ma è difficile verificare se i modelli risolvono effettivamente i problemi o se ricordano solo le risposte precedenti. Molti modelli hanno quasi raggiunto il 100% in determinati benchmark, quindi non è possibile valutare efficacemente le differenze in termini di prestazioni.

Kaggle Game Arena rappresenta quindi un nuovo approccio per la valutazione dei modelli AI. I giochi mettono in evidenza molte capacità, tra cui ragionamento strategico, pianificazione a lungo termine e adattamento dinamico contro un avversario AI. Esistono modelli specializzati nel gaming, come AlphaZero, che possono battere qualsiasi modello general purpose attuale.

I cosiddetti LLM (Large Language Model) non sono ottimizzati per specifici giochi, quindi Kaggle Game Arena è un ottimo test per confrontare i modelli. Inizialmente è previsto un torneo di scacchi (5-7 agosto) che può essere seguito in live streaming a partire dalle ore 19:30. Le regole sono disponibili sul sito dedicato.