Programul poate păstra tonul emoțional al vorbitorului și mediul acustic, scrie Ars Technica, o publicație centrată pe tehnologie.

Cercetătorii Microsoft au prezentat săptămâna trecută un nou program care poate simula vocea oricărei persoane dacă primește o înregistrare audio de trei secunde.

Numit VALL-E, aceasta poate sintetiza înregistrări audio cu o persoană care poate spune orice și o poate face într-o formă care încearcă păstrarea tonului emoțional al vorbitorului.

Creatorii săi susțin că VALL-E poate fi folosit pentru aplicații text-to-speech de calitate, softuri de editare audio a unui discurs și schimbarea acestuia conform unui script, făcându-i să spună lucruri pe care de fapt nu le-au spus.

Microsoft numește VALL-E drept un „model de codec de limbaj neuronal”, fiind construit pe o tehnologie numită EnCodec, anunțată de Facebook în octombrie 2022.

Cum funcționează

VALL-E generează audio din texte și modele acustice. Practic, acesta analizează cum sună o persoană și sparge informația în componente separate. Ulterior, folosește datele pentru a potrivi ce „știe” despre acea voce cu alte fraze.

Microsoft a antrenat VALL-E cu ajutorul unei librării audio realizată de Facebook, numită LibriLight. Aceasta conține 60.000 de ore de limbaj în engleză de la 7.000 de vorbitori. Cele mai multe sunt strânse din LibriVox, o librărie de cărți audio gratuite.

Conform sursei citate, în anumite cazuri o serie de rezultate VALL-E par generate pe calculator, dar altele pot fi potențial confundate cu limbajul uman.

Din cauza faptului că VALL-E are potențialul de înșelăciune, Microsoft nu a prezentat și codul-sursă al experimentului.