uutiset

Äänen kloonaus saavuttaa ihmistason, Microsoftin uusi VALL-E 2 -malli tekee DeepFakesta verrattavissa ääninäyttelijöihin

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Qiao Yang

[Johdatus uuteen viisauteen]Ensimmäisen sukupolven VALL-E-mallin jälkeen viime vuoden alussa Microsoft lanseerasi äskettäin uuden VALL-E 2 -mallin, joka on ensimmäinen tekstistä puheeksi, joka saavuttaa ihmisen tason syntetisoidun puheen kestävyyden, samankaltaisuuden ja luonnollisuuden suhteen .

Äskettäin Microsoft julkaisi nolla-sample text-to-speech (TTS) -mallin VALLE-2, joka saavutti ensimmäistä kertaa ihmisten kanssa. Sen voidaan sanoa olevan virstanpylväs TTS:n alalla.


Paperiosoite: https://arxiv.org/pdf/2406.05370

Syväoppimisen nopean edistymisen myötä viime vuosina puhtaan yhden henkilön puhetta käyttävät koulutusmallit äänitysstudioympäristössä ovat saavuttaneet saman laatutason kuin ihmiset, mutta nollanäytteen TTS on edelleen haastava ongelma.

"Nollanäyte" tarkoittaa, että päättelyprosessin aikana malli voi viitata vain lyhyeen tuntemattomaan puhenäytteeseen ja puhua tekstisisältöä samalla äänellä, aivan kuten reaaliajassa matkiva vatsapuhuja.

Tämän kuultuani ihmettelen, saatko yhtäkkiä hälytyksen - tällä kyvyllä varustettu malli on paras työkalu Deepfakelle!

On ilahduttavaa, että MSRA on ottanut tämän huomioon. He käyttävät VALL-E-sarjaa tällä hetkellä vain tutkimusprojektina, eikä heillä ole suunnitelmia sisällyttää sitä tuotteisiin tai laajentaa sen käyttöä.

Vaikka VALL-E 2:ssa on vahvat nollanäyteoppimisominaisuudet ja se voi jäljitellä ääniä kuten ääninäyttelijä, samankaltaisuus ja luonnollisuus riippuvat puhekehotteen pituudesta ja laadusta, taustamelusta ja muista tekijöistä.

Projektisivulla ja paperissa kirjoittaja on antanut eettisen lausunnon: Jos haluat mainostaa VALL-E:tä todellisiin sovelluksiin, tarvitset vähintään tehokkaan synteettisen puheentunnistusmallin ja suunnittelet valtuutusmekanismin sen varmistamiseksi, että malli voi syntetisoida puhetta Äänen omistajan aiemmin hyväksymä.

Jotkut verkkokäyttäjät ilmaisivat suuren pettymyksen Microsoftin käytäntöön julkaista vain papereita mutta ei tuotteita.


Loppujen lopuksi eri tuotteiden viimeaikainen kaatuminen on saanut meidät ymmärtämään syvästi, että pelkkä demon katsominen on täysin epäluotettavaa, eikä sitä voi kokeilla itse = ei mitään.


Mutta jotkut ihmiset Redditissä spekuloivat, että Microsoft ei vain halunnut olla "ensimmäinen joka syö rapuja" ja että se ei julkaissut mallia, koska se oli huolissaan mahdollisesta kritiikistä ja kielteisestä yleisestä mielipiteestä.

Kun VALL-E on mahdollista muuttaa tuotteeksi tai muita kilpailevia tuotteita ilmestyy markkinoille, oletko edelleen huolissasi siitä, ansaitseeko Microsoft rahaa?



Todellakin, kuten nettimiehet sanoivat, projektin sivulla tällä hetkellä julkaistusta demosta päätellen VALL-E:n todellista tasoa on vaikea arvioida.


Projektin sivu: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Yhteensä 5 tekstiä on lyhyitä englanninkielisiä lauseita, joissa on enintään 10 sanaa. Äänikehotteiden äänet ovat hyvin samankaltaisia, eivätkä englanninkieliset aksentit ole tarpeeksi erilaisia.

Vaikka demoja ei ole paljon, voit hämärästi tuntea, että malli on erittäin hyvä matkimaan brittiläisiä ja amerikkalaisia ​​aksentteja. Jos kehotteessa on hieman intialaista tai skotlantilaista aksenttia, on kuitenkin vaikea saavuttaa aitouden tasoa.

menetelmä

Mallin edeltäjä, VALL-E, julkaistiin alkuvuodesta 2023 ja on jo TTS:n suuri läpimurto nollanäytteissä. VALL-E pystyy syntetisoimaan yksilöllistä puhetta 3 sekunnin tallenteista säilyttäen samalla puhujan äänen, tunteen ja akustisen ympäristön.

VALL-E:llä on kuitenkin kaksi keskeistä rajoitusta:

1) Vakaus: Päättelyprosessissa käytetty satunnainen näytteenotto voi saada lähdön epävakaaksi, ja ytimen näytteistys pienellä top-p-arvolla voi aiheuttaa äärettömän silmukan ongelmia. Vaikka sitä voidaan lievittää usealla näytteenotolla ja myöhemmällä lajittelulla, tämä lisää laskentakustannuksia.

2) Tehokkuus: VALL-E:n autoregressiivinen arkkitehtuuri on sidottu samoihin suuriin kehysnopeuksiin kuin valmiit audiokoodekkimallit, eikä sitä voida säätää, mikä johtaa hitaampaan päättelyyn.

Vaikka näiden VALL-E:n ongelmien parantamiseksi on tehty monia tutkimuksia, ne monimutkaistavat usein mallin yleistä arkkitehtuuria ja lisäävät datakoon skaalaustaakkaa.

Tähän edelliseen työhön perustuen VALL-E 2 sisältää kaksi keskeistä innovaatiota: toistotietoisen näytteenoton ja ryhmitellyn koodimallinnuksen.

Toistotietoinen näytteenotto on parannus VALL-E:n satunnaisnäytteenottoon. Valinta perustuu menneisiin merkkitoistoihin, mikä helpottaa huomattavasti VALL-E:n äärettömän silmukan ongelmaa vakautta.


Algoritminen kuvaus toistuvasta havaintonäytteenotosta

Ryhmitetty koodimallinnus jakaa koodekkikoodin useisiin ryhmiin, ja jokainen ryhmä mallinnetaan yhdelle kehykselle autoregression aikana. Se ei vain lyhennä sekvenssin pituutta ja nopeuttaa päättelyä, vaan se myös parantaa suorituskykyä lievittämällä pitkiä kontekstin mallinnusongelmia.

On syytä huomata, että VALL-E 2 vaatii opetukseen vain yksinkertaista puhelitteroitua tekstidataa eikä vaadi monimutkaista lisädataa, mikä yksinkertaistaa huomattavasti tiedonkeruu- ja käsittelyprosessia ja parantaa mahdollista skaalautuvuutta.

Tarkemmin sanottuna jokaiselle tietojoukon puhetekstidatan osalle käytetään audiokoodekkikooderia ja tekstitokenisaattoria esittämään se koodekkikoodina = [0,1,…,(−1 )] ja tekstisekvenssinä = [0 ,1,…,(−1)] autoregressiivisten (AR) ja ei-autoregressiivisten (NAR) mallien harjoitteluun.


Sekä AR- että NAR-mallit käyttävät Transformer-arkkitehtuuria, ja neljä varianttia suunniteltiin myöhempiä arviointikokeita varten vertailua varten. Niillä on sama NAR-malli, mutta AR-mallien ryhmäkoot ovat 1, 2, 4 ja 8.

Päättelyprosessi on myös AR- ja NAR-mallien yhdistelmä. Tekstisekvenssin ja koodivihjeen <′,0 perusteella generoidaan ensimmäinen koodisekvenssi, jonka kohdekoodi on ≥′,0, minkä jälkeen generoidaan kunkin ryhmän kohdekoodi autoregressiivisellä menetelmällä.


Kun sekvenssi on ≥′,0, NAR-malli voidaan päätellä käyttämällä tekstiolosuhteita ja akustisia olosuhteita 〈′ jäljellä olevien kohdekoodisekvenssien ≥′,≥1 muodostamiseksi.

Mallikoulutuksessa käytetään tietoja Libriheavy-korpuksesta, joka sisältää 50 000 tuntia puhetta 7 000 ihmiseltä, jotka lukevat englanninkielisiä äänikirjoja. Tekstin ja puheen segmentointi käyttää BPE:tä ja avoimen lähdekoodin esikoulutettua mallia EnCodec.

Lisäksi avoimen lähdekoodin esikoulutettua Vocos-mallia käytetään myös puheenmuodostuksen audiodekooderina.

Arvioida

Sen todentamiseksi, voiko mallin puhesynteesivaikutus saavuttaa saman tason kuin ihmisen, arvioinnissa käytetään kahta subjektiivista indikaattoria, SMOS ja CMOS, ja todellista ihmisen puhetta pohjatotuutena.

SMOS:a (Similarity Mean Opinion Score) käytetään arvioimaan puheen ja alkuperäisen kehotteen samankaltaisuutta. Pistemäärä on 1–5 0,5 pisteen lisäyksellä.

CMOS:a (Comparative Mean Opinion Score) käytetään syntetisoidun puheen luonnollisuuden arvioimiseen verrattuna tiettyyn referenssipuheen.


Taulukon 2 tulosten mukaan VALL-E 2:n subjektiivinen pistemäärä ei ainoastaan ​​ylitä ensimmäisen sukupolven VALL-E:n arvoa, vaan toimii jopa paremmin kuin todellinen ihmispuhe.

Lisäksi artikkelissa käytetään objektiivisia indikaattoreita, kuten SIM, WER ja DNSMOS, arvioimaan syntetisoidun puheen samankaltaisuutta, kestävyyttä ja yleistä havainnon laatua.


Näissä kolmessa objektiivisessa indikaattorissa, riippumatta siitä, kuinka VALL-E 2:n ryhmäkoko on asetettu, on parannus VALL-E:hen verrattuna. WER- ja DNSMOS-pisteet ovat myös parempia kuin todellinen ihmispuhe, mutta silti tietty aukko SIM-pisteissä.

Lisäksi taulukon 3 tuloksista voidaan myös todeta, että kun VALL-E 2:n AR-malliryhmän koko on 2, voidaan saavuttaa optimaalinen vaikutus.

Samanlaisia ​​johtopäätöksiä voidaan tehdä VCTK-aineiston arvioinnista. Kun kehotteen pituus kasvaa, ryhmitellyn koodin mallinnusmenetelmä voi lyhentää sekvenssin pituutta ja lieventää muuntaja-arkkitehtuurin virheellisen huomiomekanismin aiheuttamia generointivirheitä, mikä parantaa WER-pisteitä.


kirjailijasta

Tämän artikkelin ensimmäinen kirjoittaja Chen Sanyuan on Harbin Institute of Technologyn ja Microsoft Research Asian yhdessä kouluttaman tohtorin tutkija. Hän on työskennellyt tutkijana MSRA Natural Language Computing Groupissa vuodesta 2020 lähtien. Hänen tutkimuksensa ovat pääasiassa esikoulutettuja. kielimallit puheen ja äänen käsittelyyn.


Viitteet:

https://arxiv.org/abs/2406.05370