Apple svela AI che analizza i video lunghi sorprendentemente bene

Quando un’AI cerca di comprendere un video, si trova di fronte a un problema titanico. Deve analizzare migliaia di fotogrammi, riconoscere oggetti che si muovono, capire le relazioni temporali e poi tradurre tutto in linguaggio comprensibile.

La maggior parte dei sistemi attuali affronta questa sfida con la forza bruta. Analizzano ogni singolo fotogramma, generando montagne di dati ridondanti. In un video normale, tra un fotogramma e l’altro cambiano pochissimi pixel, eppure molti modelli processano tutto come se fosse completamente nuovo. Il risultato? Sprechi computazionali enormi e la necessità di hardware costosissimo.

Apple presenta SlowFast-LLaVA-1.5 per l’analisi video

I ricercatori di Cupertino hanno preso una strada radicalmente diversa. Hanno sviluppato SlowFast-LLaVA-1.5, un sistema che “guarda” i video in due modi diversi e complementari. Il primo è uno sguardo lento e profondo che esamina pochi fotogrammi chiave con estrema attenzione. Cattura ogni dettaglio della scena, chi c’è, cosa sta facendo, ecc. Il secondo è uno sguardo veloce che scorre rapidamente attraverso molti più fotogrammi, tracciando i movimenti e i cambiamenti nel tempo.

I risultati sono molto interessanti. Il modello più piccolo di Apple, con appena 1 miliardo di parametri, supera sistemi con decine di miliardi di parametri nei test più complessi. Su benchmark come LongVideoBench e MLVU, che valutano la comprensione di video lunghi e complessi, SF-LLaVA-1.5 stabilisce nuovi record in tutte le categorie di dimensione.

Ma non è tutto. Mentre molti modelli specializzati in video perdono la capacità di analizzare immagini statiche, quello di Apple mantiene prestazioni eccellenti anche su compiti fotografici, dalla lettura del testo nelle immagini al ragionamento matematico basato su diagrammi.

Apple ha fatto una scelta audace: limitare l’analisi a un massimo di 128 fotogrammi, indipendentemente dalla lunghezza del video. Che si tratti di una clip di tre minuti o di un film di tre ore, il sistema seleziona sempre 96 fotogrammi per l’analisi veloce e 32 per quella approfondita. Questa limitazione potrebbe sembrare un handicap, ma non lo è. Permette al modello di funzionare su hardware accessibile mantenendo prestazioni superiori. I ricercatori ammettono che potrebbero perdere alcuni momenti chiave nei video molto lunghi, ma i risultati dimostrano che l’approccio funziona straordinariamente bene nella pratica.

Un regalo alla comunità scientifica

Apple ha reso tutto open source. Il modello è disponibile su GitHub e Hugging Face, addestrato esclusivamente con dataset pubblici. Chiunque può scaricarlo, studiarlo, migliorarlo. Questa apertura potrebbe accelerare lo sviluppo di applicazioni pratiche, dall’analisi medica di video diagnostici alla creazione di assistenti virtuali capaci di comprendere tutorial video, dalle piattaforme educative intelligenti ai sistemi di sicurezza avanzati.

Visite totale 2 , 2 visite oggi
Facebook
WhatsApp
Twitter
LinkedIn
Telegram

Continua a leggere

Scorri verso l'alto