YouTube ha lanciato una funzione di sincronizzazione labiale basata su AI che modifica il movimento delle labbra nei video doppiati automaticamente, facendolo corrispondere perfettamente alla lingua tradotta invece che a quella originale. Si, è quasi un deepfake, ma a fin di bene. Quando si guarderà un video in inglese, e si attiva il doppiaggio in italiano, le labbra della persona si muoveranno come se stesse davvero parlando italiano.
YouTube usa L’AI per IL lip sync perfetto, come funziona
YouTube ha lanciato il doppiaggio automatico qualche mese fa. Da allora, 60 milioni di video in 20 lingue sono stati doppiati dall’AI. È un numero enorme che dimostra quanto sia diffusa questa funzionalità.
Il doppiaggio automatico è utile quando si vuole guardare contenuti in lingue che non si parlano, ma non non si ha alcuna voglia di leggere sottotitoli. Per alcuni i sottotitoli sono una distrazione, preferiscono ascoltare invece che leggere. Per loro, il doppiaggio AI è la soluzione ideale.
Ma c’erano due problemi: la voce sintetica suonava robotica e innaturale, e le labbra non erano sincronizzate con l’audio. E il cervello umano registra immediatamente questo tipo di dissonanze. YouTube sta cercando di risolvere entrambi i difetti. La sincronizzazione labiale AI dovrebbe sistemare il secondo.
Buddhika Kottahachchi, chef di prodotto YouTube responsabile del doppiaggio automatico, ha spiegato che il sistema modifica i pixel sullo schermo in modo che ci sia corrispondenza con le parole tradotte. Google ha dovuto insegnare all’AI a comprendere il mondo in 3D, forma delle labbra, posizione dei denti, postura del viso, movimento della mascella. Solo con questa comprensione tridimensionale l’AI può modificare realisticamente il movimento labiale. È lo stesso tipo di tecnologia usata nei deepfake, ma lo scopo è completamente diverso.
Solo Full HD per ora
La sincronizzazione labiale attualmente funziona solo sui video in Full HD (1080p). Quelli in 4K non sono ancora supportati perché ha molti più pixel da modificare, il che richiede molta più potenza computazionale. È un compromesso temporaneo.
Cinque lingue supportate, venti in arrivo
Al momento la sincronizzazione labiale funziona per cinque lingue: inglese, spagnolo, tedesco, portoghese e francese. Sono le lingue più parlate su YouTube, quindi ha senso iniziare da lì. Il doppiaggio automatico supporta 20 lingue totali. YouTube promette che tutte avranno la sincronizzazione labiale AI. Ma ci vorrà tempo. Ogni lingua richiede un addestramento specifico dell’AI per capire come si formano i suoni, come si muovono le labbra, quali sono le differenze fonetiche. L’italiano non c’è ancora nella lista iniziale, ma arriverà presto.