Replicare la voce di una persona da un campione audio di 3 secondi: c’è riuscita Microsoft con l’IA VALL-E

Gennaio 10, 2023

Microsoft ha realizzato VALL-E, un modello di machine learning capace di simulare la voce di una persona dopo averne ascoltato un campione audio di soli 3 secondi. È in grado anche di replicare il tono emotivo del parlante.

Parlami per 3 secondi e ti imito

VALL-E è dunque un modello di machine learning text-to-speech definito da Microsoft come “modello linguistico con codec neurale” che si basa su la tecnologia EnCodec di Meta.

I modelli text-to-speech sono tecnologie già note e utilizzate, ma a differenza di quelle più comuni che modulano le forme d’onda per sintetizzare il parlato, VALL-E riesce a generare dei codec audio personalizzati sulla voce da replicare partendo ovviamente dal testo e soprattutto dal campione audio di 3 secondi.

Ottenuti i dati della voce e del testo, VALL-E scompone le informazioni in token acustici, in modo da far corrispondere ciò che ha imparato dal suo addestramento a come suonerebbe la voce se pronunciasse frasi diverse dal campione di 3 secondi.

Sul sito della demo di VALL-E sono presenti diversi esempi e, per quasi tutti, Microsoft presenta lo “Speaker Prompt”, cioè il campione audio di 3 secondi del parlante; la frase “Ground Truth”, che è una registrazione dello stesso oratore del campione di 3 secondi; la “Baseline”, una sintesi vocale realizzata con modello text-to-speech tradizionale; e infine l’interpretazione di VALL-E.

Se si vuole ascoltare e valutare subito la differenza tra il reale e il simulato, consigliamo di riprodurre a breve distanza il brano “Ground Truth” e il “VALL-E”. Sebbene ci siano sfumature artificiose, considerando che ciò che VALL-E riesce a fare è ottenuto da una campione audio di 3 secondi, i risultati sono notevoli.

Inoltre, VALL-E riesce a simulare anche l’ambiente acustico in cui la frase è stata pronunciata: per esempio, una voce al telefono sarà replicata come se fosse effettivamente parlando attraverso un microfono. Oppure può usare la sfumatura emotiva di una voce originale per creare una simulazione vocale che ne abbia una simile.

L’addestramento di VALL-E è avvenuto sulla libreria audio di Meta chiamata LibriLight, che contiene 60.000 ore di parlato in lingua inglese e 7.000 oratori, la cui voce è stata presa soprattutto dagli audiolibri di pubblico dominio della piattaforma LibriVox. Quindi per il momento VALL-Eparla solo inglese.

I rischi legati all’uso di VALL-E sono alti

Il rischio connesso all’utilizzo di un modello con queste capacità è elevato, perché sarebbe sufficiente avere 3 secondi di una registrazione della voce di una persona per dare a VALL-E la capacità di farle recitare qualsiasi frase.

È uno dei motivi per cui Microsoft non ha fornito pubblicamente il codice di VALL-E e per cui intende sviluppare un modello in grado di riconoscere le sue creazioni audio.

Visite totale 2 , 1 visite oggi

Articoli della settimana

CONTINUA A LEGGERE...

Quale può essere il voto massimo per la stagione dellInter? Impossibile andare sopra il 7 –

26 Febbraio 2026

Continua a leggere

Leao commovente su Jota: Voleva aiutare tutti, anche me. Mi chiedeva i biglietti per il Milan –

26 Febbraio 2026

Continua a leggere