A VALL-E nevű, neurális kódnyelvi modellnek mindössze három másodpercnyi hanganyagra van szüksége ahhoz, hogy reprodukálja a beszélő hangját – számolt be róla a Gizomodo tudományos hírportál.
A mesterséges intelligencián alapuló eszköz nemcsak a hangszínt képes leutánozni, hanem a beszélő érzelmi hullámzását és akár a szoba akusztikáját is élethűen tudja visszaadni.
Surprised there isn’t more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice