nuntium

Vox exquisita ad humanam gradum pervenit, Microsoft novum VALL-E 2 exemplar facit DeepFake actoribus vocis comparabilem.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Qiao Yang

[Introductio ad Novam Sapientiam].Secundum exemplar primae generationis VAL-E primo anno proximo, Microsoft nuper novum exemplar VAL-E 2 induxit, primum textum ad orationem quae ad humanos gradus pervenit secundum vim, similitudinem, et naturalem sermonis synthesim .

Nuper Microsoft emisit exemplar VALLE-2 exemplar zerum-semple-orationis, quod aequalem cum hominibus primum effecit.


Charta inscriptio: https://arxiv.org/pdf/2406.05370

Celeri studiorum altiorum progressu in annis proximis, exemplorum institutio utens mundissimae unius personae loquelae in memoria studiorum ambitus ad eundem gradum qualitatis, quam homines pervenit, attamen nulla-sample TTS adhuc problema provocans est.

"Nullum specimen" significat quod in illatione processus, exemplar solum ad brevem sermonis ignotae specimen referre potest ac textus eadem voce contentus loqui, sicut ventriloquus qui in tempore reali imitari potest.

His auditis, miror an subito admonearis - exemplar cum hac facultate optimum instrumentum pro Deepfake!

Gratum est quod MSRA hoc in consideratione sumpsit. Nunc solum series VAL-E utuntur ut inceptivum investigationis et nulla consilia habent ad incorporandum in fructus vel usum suum augendum.

Etsi VALC-E 2 validae nullae doctrinae specimen facultatem habet et voces imitari possunt ut vocis histrionum, similitudo et natura pendet ex longitudine et qualitate vocis promptae, soni et curriculo aliorum factorum.

In pagina proiecta et in charta auctor ethicam sententiam dixit: Si VAL-E ad applicationes reales mundi promovere vis, saltem validum syntheticae orationis exemplar deprehendendi debes, et auctorizatio mechanismum designare ut exemplum potest synthesise locutionis Antea adprobata soni possessore.

Nonnulli reticulati magnam deceptionem expresserunt cum Microsoft usus est solum e tabellis edendis sed non productis.


Post omnes, recens eversio variarum productorum penitus nos intellexit quod solum spectans demom omnino ambigui est, et nullo modo est ipsum experiri = nihil est.


Sed aliqui in Reddit putantes Microsoft iustus esse nolebat "primum cancros edere", et quod exemplar non dimisit, quia de possibili reprehensione et opinione negativa sollicitus erat.

Cum est via ut VAL-E convertatur in productum, vel alia certatim producta in foro apparent, adhuc solliciti num Microsoft pecuniam facturus?



Immo, ut reticuli dixerunt, ex demo nunc dimisso in pagina proiecto iudicantes, difficile est verum gradum VAL-E iudicare.


Project pagina: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

In summa 5 textuum sunt breves sententiae Anglicae non plus quam 10 vocum. Voces vocis promptae sunt simillimae, accentuum Anglicanorum non satis diversarum.

Quamvis non multae demos sint, vage sentire potes exemplar optimum esse ad imitationes Britanni et Americani accentuum. Tamen, si promptum habet levem Indicum vel Scoticum accentum, difficile erit consequi aequitatis gradum.

methodo

Decessor archetypi, VAL-E, ineunte 2023 dimissus est, et iam maior perruptio pro TTS in exemplaria nulla. VAL-E potest synthesim personalem orationem ex 3-secunda recordationibus componi, servata in voce, affectu et acoustica loquentis ambitu.

Sed VAL-E duas clausuras clausuras habet:

1) Stabilitas: Random sampling usus in illatione processus potest output esse instabile, et nucleum sampling cum parvo top-p valor infinitis ansa quaestionibus causare potest. Quamvis multiplex sampling et subsequentis voluptua sublevari potest, hoc sumptus computational augebit.

2) Efficientia: Architectura autoregressiva VALL-E iisdem magni pretii tabulis quae extemporalitatem instrumenti audiendi codec extemporalitatis obligare nec accommodari potest, consequens est tardiori illatione.

Etsi multa studia in his quaestionibus VAL-E emendandis fuerunt, saepe altiorem exemplaris architecturam inpediunt atque onus amplitudinis notitiarum scandendi augent.

Ex hoc opere praecedente, VAL-E 2 duas continet innovationes clavis: iteratio conscia sampling et codici distincti exemplaria.

Repetitio-conscius sampling emendatio est in temere sampling in VAL-E. Adaptare potest temere sampling vel nuclei sampling firmitas.


Algorithmica descriptio sensibilis repetitae sampling

Codicem ordinatum exemplar codicis in plures circulos dividit, et singulae coetus in una compage per autoregressionem exemplata sunt. Non solum series longitudinis minuit et consequentiam accelerat, sed etiam perficiendo efficit ut diuturno contextu exemplando quaestiones minuat.

Notatu dignum est quod VAL-E 2 solum postulat notitias textuum textuum transscriptorum simplicium ad formandum et non necessarias notitias intricatas additas, quae valde simpliciores sunt notitiae collectionis et processus processui et scalabilitatis potentiae melioris.

Speciatim pro unaquaque parte orationis-textus datae in notitia copiae, signum audio codec encoder et textus tokenizer adhibentur ad eam repraesentandam in codice = [0,1,…,(−1)] et textus sequentium = [0 ,1, ..., (−1)] ad formandum autoregressivum (AR) et non autoregressivum (NAR) exempla.


Ambo AR et NAR exemplaria architecturae Transformatori utuntur, et quattuor variantes experimentis ad comparationem aestimationis subsequentis designati sunt. Simile exemplar communicant NAR, sed globi magnitudinum AR exemplorum sunt 1, 2, 4, 8 respective.

Processus rationis est etiam exempla composita AR et NAR. Fundatur in textu serie et codice admonitus <′,0, primum codicem seriei cum codice target ≥′,0 generatur, et tunc signum cuiusque coetus scopo utens methodo autoregressiva generatur.


Data serie ≥′,0, exemplum NAR inferri potest condicionibus textualibus et acousticis condicionibus 〈′ ad generandum reliquas scopos codicis sequentia ≥′, ≥1.1.

Exemplar institutionis notitiae utitur in Libriheavy corporis, quod continet 50.000 horarum locutionis ex 7.000 hominum qui libros audio legere Anglicos. Verbum segmentationis textus et locutionis BPE utitur et fons apertus exemplar praeordinatum EnCodec respectively.

Praeterea fons apertus exemplum Vocos praeexercitatum adhibetur etiam sicut decoder soni ad loquelam generationis.

Censeo

Ut verificetur utrum synthesis sermonis effectio exemplaris aequare ac homines attingere possit, aestimatio duobus indicibus subiectivis utitur, SMOS et CMOS, et vera humana oratione utitur ut veritas fundata.

SMOS (Similarity Mean Score) aestimare similitudinem sermonis cum prompto originali.

CMOS (Comparative Mean Score Opinion) aestimare consue- tudinem sermonis synthesised comparatam cum collatione locutionis datae.


Secundum eventus in Tabula 2, designatio subiectiva VAL-E 2 non solum excedit primae generationis VAL-E, sed etiam meliorem efficit quam oratio vera humana.

Praeterea charta etiam indicibus obiectivis utitur ut SIM, WER et DNSMOS ad aestimandam similitudinem, robustitatem et altiorem qualitatem sensibilis sermonis synthesis.


In his tribus indicibus obiectivis, quantumvis globi amplitudo vallum-E 2 posita est, tota rotunditas emendatio comparatur cum VAL-E lacunam quandam in SIM viginti.

Praeterea etiam ex eventibus in Tabula 3 inveniri potest quod, cum exemplar coetus AR VAL-E 2 magnitudo sit 2, meliorem effectum obtineri possit.

Similes conclusiones haberi possunt ex aestimatione in VCTK data copia. Cum prompta longitudo augetur, codicem ordinatum methodus exemplandi longitudo sequentiam minuere potest et errores generationis sublevare, quae mechanismum in architecturae transformatoris non recte attentant, eoque meliori WER score.


De auctore

Primus auctor huius articuli, Chen Sanyuan, est PhD coniunctim exercitatus ab Harbin Instituto Technologiae et Microsoft Research Asiae. exempla linguae pro loquela et processu audiendi.


Notae:

https://arxiv.org/abs/2406.05370