Microsoft ha realizzato VALL-E, un modello di machine learning capace di simulare la voce di una persona dopo averne ascoltato un campione audio di soli 3 secondi. È in grado anche di replicare il tono emotivo del parlante. Parlami per 3 secondi e ti imito VALL-E è dunque un modello di machine learning text-to-speech definito da […]