2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]
GPT-4o:n ilmestymisestä vuonna 2024 lähtien alan yritykset ovat investoineet valtavia resursseja TTS-suurmallien tutkimukseen ja kehittämiseen. Viime kuukausina on syntynyt suuria kiinalaisia puhesynteesimalleja, kuten chattts, seedtts, cosyvoice jne.
Vaikka nykyisellä suuren mittakaavan puhesynteesimallilla on lähes sama vaikutus kuin todellisilla ihmisillä kiinan mandariinikiinan kielellä, Kiinan monimutkaisten murteiden edessä TTS:n laajamittaiset mallit ovat harvoin olleet mukana kouluttamassa yhtenäistä laajamittaista kiinalaista puhesynteesimallia eri murteet on äärimmäisen haastava tehtävä.
Alan kipukohdat ja tekniset pullonkaulat
Tällä hetkellä puhesynteesin suurmalliteknologia on edistynyt merkittävästi mandariinikiinan alalla, mutta sen kehitys murteiden alalla on erittäin hidasta. Kiinassa on kymmeniä suuria murteita, joista jokaisella on ainutlaatuiset foneettiset ominaisuudet ja kieliopilliset rakenteet, mikä tekee suuren, eri murteita kattavan TTS-mallin koulutuksesta erittäin monimutkaista.
Suurin osa olemassa olevista suurista TTS-malleista keskittyy mandariinikiinaan eivätkä pysty vastaamaan erilaisiin puhesynteesitarpeisiin. Lisäksi murrekorpujen niukkuus ja laadukkaan merkintätiedon puute lisäävät entisestään teknistä vaikeutta.
Giant Network AI Labin teknologinen innovaatio ja läpimurrot
Yllä olevien ongelmien ratkaisemiseksi algoritmiasiantuntijat ja lingvistit Giant Network AI Lab -tiimissä rakensivat yhdessä mandariini- ja murretietojoukon, joka kattaa 20 murretta ja yli 200 000 tuntia kiinalaisen murrejärjestelmän pohjalta. Tämän valtavan tietojoukon avulla harjoittelimmeEnsimmäinen laajamittainen TTS-malli, joka tukee useiden mandariinikiinan murteiden sekoitettua puhumista - Bailing-TTS. Bailing-TTS ei voi vain tuottaa korkealaatuista mandariinipuhetta, vaan myös erilaista murrepuhetta, mukaan lukien henani, shanghai, kantoni jne.
ArXiv: https://arxiv.org/pdf/2408.00284
Kotisivu: https://giantailab.github.io/bailingtts_tech_report/index.html
Paperin otsikko: Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Humanlike Spontaani Representation
Seuraava äänen kuuntelulinkki: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366b0802b940366b0802b940366bd4b95f494f3b3b 60d46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd
Seuraava on Bailing-TTS:n synteesivaikutus Henanin murreessa:
Haluan kuunnella nollanäytteen kloonauksen vaikutusta mandariinikiinaksi:
Olemme ottaneet käyttöön useita innovatiivisia tekniikoita tämän tavoitteen saavuttamiseksi:
1.Unified Dialect Token Specification: Olemme yhdistäneet eri murteiden merkkimääritykset ja osittain limittäneet mandariinikiinan ja eri murteiden merkit käyttääksemme mandariinikiinaa ääntämisen perusominaisuuksien tarjoamiseen. Tämän ansiosta voimme saavuttaa korkealaatuisen murrepuheen synteesin rajoitetuissa dataolosuhteissa.
2.Hienostunut Token Alignment -tekniikka: Ehdotamme hienostunutta merkkikohtaista kohdistustekniikkaa, joka perustuu laajamittaiseen multimodaaliseen esikoulutukseen.
3.Hierarkkinen hybridiasiantuntijarakenne: Suunnittelemme hierarkkisen hybridi-asiantuntija-arkkitehtuurin oppimaan yhtenäisiä esityksiä useille kiinalaisille murteille ja erityisiä esityksiä kullekin murteelle.
4.Hierarkkinen vahvistus oppimisen tehostamisstrategia: Ehdotimme hierarkkista vahvistusoppimisstrategiaa parantaaksemme edelleen TTS-mallin murteen ilmaisukykyä yhdistämällä peruskoulutusstrategioita ja edistyneitä koulutusstrategioita.
Toteutustiedot
Kuva 1 Bailing-TTS yleinen arkkitehtuuri
1. Hienostunut Tokenin kohdistus, joka perustuu laajamittaiseen multimodaaliseen esikoulutukseen
Teksti- ja puhemerkkien hienostuneen kohdistamisen saavuttamiseksi ehdotamme monivaiheista, multimodaalista esikoulutusoppimiskehystä.
Ensimmäisessä vaiheessa käytämme valvomatonta näytteenottostrategiaa suorittaaksemme karkeaa koulutusta laajamittaiselle tietojoukolle. Toisessa vaiheessa otamme käyttöön tarkennetun näytteenottostrategian, jonka avulla voimme suorittaa hienojakoista koulutusta korkealaatuisista murretietosarjoista. Tämä menetelmä voi tehokkaasti vangita tekstin ja puheen välisen hienorakeisen korrelaation ja edistää näiden kahden modaliteetin kohdistamista.
2. Perustuu hierarkkiseen hybridiasiantuntija Transformer-verkkorakenteeseen
Kouluttaaksemme yhtenäisen TTS-mallin, joka sopii useille kiinan murteille, suunnittelimme hierarkkisen hybridiasiantuntijaverkostorakenteen ja monivaiheisen monimurteisen tunnusoppimisstrategian.
Ensinnäkin ehdotamme hybridi-asiantuntija-arkkitehtuuria, joka on erityisesti suunniteltu oppimaan yhtenäisiä esityksiä useille kiinalaisille murteille ja erityisiä esityksiä jokaiselle murteelle. Sitten ruiskutamme murremerkkejä TTS-mallin eri tasoille ristiin huomioimiseen perustuvan fuusiomekanismin avulla parantaaksemme mallin monimurteisia ilmaisukykyjä.
3. Hierarkkinen vahvistus oppimisen tehostamisen strategia
Ehdotamme hierarkkista vahvistusoppimisstrategiaa parantaaksemme entisestään TTS-mallin murreilmaisukykyä yhdistämällä perusstrategiakoulutuksen ja edistyneet koulutusstrategiat. Peruskoulutusstrategia tukee laadukkaiden murrepuheen ilmaisujen kartoittamista, ja jatkokoulutusstrategia vahvistaa tämän pohjalta eri murteiden puheominaisuuksia, jolloin saavutetaan laadukas puhesynteesi useissa murteissa.
Kuva 2 Murteen MoE rakenne
Kokeelliset tulokset
Bailing-TTS on saavuttanut tason, joka on lähempänä oikeita ihmisiä kestävyyden, sukupolven laadun ja luonnollisuuden suhteen mandariinikiinan ja useiden murteiden suhteen.
Taulukko 1 Bailing-TTS:n testitulokset kiinan mandariinikielellä ja murteilla
Varsinaisessa sovellusskenaarioiden arvioinnissa Baling-TTS on saavuttanut hyviä tuloksia.
Taulukko 2 Bailing-TTS:n testitulokset kaiuttimien hienosäädöstä ja nollanäytteen kloonauksesta kiinan mandariinilla ja murteilla
Teknologian käyttöönotto ja tulevaisuuden näkymät
Tällä hetkellä tätä suurta monimurteista TTS-mallia on sovellettu useissa käytännön skenaarioissa. Esimerkiksi NPC:iden kopiointi peleissä, murteiden kopioiminen videoiden luomisessa jne. Tämän teknologian avulla peli- ja videosisältö voi olla lähempänä alueellista kulttuuria, mikä parantaa käyttäjien uppoamisen tunnetta ja kokemusta.
Tulevaisuudessa päästä-päähän äänivuorovaikutuksen suuria malleja kehitettäessä tämä tekniikka näyttää enemmän potentiaalia sellaisilla alueilla kuin murrekulttuurin suojelu ja pelin tekoälyn NPC-murrevuorovaikutus. Murresuojausskenaariossa, kun tuetaan äänivuorovaikutusta useissa murteissa, seuraava sukupolvi voi helposti oppia, periä ja suojata kiinalaisia murteita, jolloin kiinalaisella murrekulttuurilla on pitkä historia. Pelimaailmassa älykkäät NPC:t, jotka voivat puhua murteita ja olla vuorovaikutuksessa äänen kanssa, lisäävät pelisisällön ilmaisukykyä entisestään.
Giant Network AI Lab on jatkossakin sitoutunut edistämään tämän teknologian innovaatioita ja soveltamista tuodakseen käyttäjille älykkäämmän ja kätevämmän äänivuorovaikutuskokemuksen.
Joukkueen esittely
Vuonna 2022 perustettu Giant AI Laboratory on tekoälyteknologian sovellus- ja tutkimuslaitos, joka on sidoksissa Giant Networkiin. Sitoutunut AIGC-sisällön (kuva/teksti/ääni/video/3D-malli jne.) luomiseen, toteuttamaan kattavaa älykkään sisällön tuotantoa ja luomista sekä edistämään peliinnovaatioita. Tällä hetkellä laboratorio on rakentanut täyden linkin teollisen tekoälyn tuotantoputken Giantissa. Se on myös saanut päätökseen pelialan ensimmäisen suuren vertikaalisen mallin (GiantGPT) rekisteröinnin ja se on ensimmäinen kaupalliseen käyttöön otettu.