Maailman kuumin AI-äänimalli, viimeisimmät tekniset yksityiskohdat paljastettiin

2024-07-24

älykkäitä asioita
Kokoanut Meng Qiang
Toimittaja Yunpeng

Zhixixi Newsin mukaan 24. heinäkuuta Satbility AI jakoi Stable Audio Open -tutkimuspaperin Arxivista 19. heinäkuuta, paljastaen mallin taustalla olevat tekniset yksityiskohdat.

Stable Audio Open on avoimen lähdekoodin tekstistä ääneksi -malli, jonka StabilityAI julkaisi tämän vuoden kesäkuussa. Se voi tuottaa näytteitä ja äänitehosteita jopa 47 sekuntia ilmaiseksi. Se voi myös tuottaa 44,1 kHz:n korkealaatuista stereoääntä kuluttajatason GPU:t. Ilmaisen ja avoimen lähdekoodin lisäksi tämä malli kiinnittää huomiota myös tekijöiden tekijänoikeuksien suojaamiseen ja yrittää parhaansa mukaan välttää eettisiä ja moraalisia ongelmia datakoulutuksen aikana.

Paperi paljasti, että Stable Audio Open on muunnelma kaupallisesta Stable Audio 2:sta, jonka Stable Audio lanseerasi tämän vuoden maaliskuussa avainarkkitehtuuri koostuu autoenkooderista, joka perustuu T5:n tekstin upotus- ja diffuusiomalliin (DiT).

Paperiosoite: https://arxiv.org/html/2407.14358v1

1. 3 avainarkkitehtuuria tukevat 44,1 kHz korkealaatuisen stereolyhyen äänen luomista ilmaiseksi

Stable Audio Open esittelee tekstistä ääneksi -mallin, jossa on kolme pääarkkitehtuuria:

Autoenkooderit: pakkaa aaltomuototiedot hallittavissa oleviin sekvenssipituuksiin;
Tekstin upotus perustuu T5:een;
Muuntajapohjainen diffuusiomalli (DiT): toimii autoenkooderien piilevässä tilassa.

Autoenkooderi on neuroverkkoarkkitehtuuri, joka koostuu kooderista ja dekooderista. Enkooderi pakkaa sisääntulotiedot pienempään piilevän tilan esitykseen, ja dekooderi purkaa ja palauttaa piilevän esityksen. Stable Audio Openin automaattinen kooderi pakkaa äänen aaltomuodon lyhyemmäksi sekvenssiksi myöhempää käsittelyä varten.

T5 (Text-to-Text Transfer Transformer) on Googlen kehittämä luonnollisen kielen käsittelymalli, joka voi muuntaa syötetyn tekstin toiseksi tekstiesityksenä. Stable Audio Openissa T5-malli muuntaa käyttäjän syöttämän tekstin tekstin upottamiseksi helpottaakseen tekstitietojen integrointia äänen luontiprosessiin.

DiT (Diffusion Transformer) on diffuusiomalli, joka toimii autoenkooderin piilevässä tilassa prosessoimaan ja optimoimaan kooderin pakkaamat tiedot varmistaakseen, että dekooderi voi palauttaa koherentin, korkealaatuisen äänen.

Stable Audio 2:n muunnosmallina Stable Audio Open on säädetty harjoitustietojen ja osan arkkitehtuurista. Täysin erilainen tietojoukko otettiin ja T5:tä käytettiin CLAP:n (Contrastive Language-Audio Pretraining) sijaan. Ensimmäisen on kehittänyt Google ja se keskittyy tekstidataan erilaisten luonnollisen kielen käsittelytehtävien suorittamiseksi, kun taas jälkimmäisen on kehittänyt OpenAI ja se pystyy käsittelemään sekä kielidataa että äänidataa.

Avoimen lähdekoodin ja ilmaisena mallina Stable Audio Open ei luo yhtenäisiä ja täydellisiä raitoja, eikä sitä ole optimoitu kokonaisille kappaleille, melodioille tai laululle.

Stability AI sanoi, että Stable Audio Open keskittyy audiodemo- ja äänitehosteiden tuotantoon ja voi tuottaa 44,1 kHz korkealaatuista stereoääntä jopa 47 sekuntia ilmaiseksi. Ammattimaisesti koulutettuna malli on ihanteellinen rumpujen, instrumentaaliriffien, ambient-äänien, foley-tallenteiden ja muiden ääninäytteiden luomiseen käytettäväksi musiikin tuotannossa ja äänisuunnittelussa.

Tämän avoimen lähdekoodin version tärkein etu on, että käyttäjät voivat hienosäätää mallia omien mukautettujen äänitietojensa perusteella. Tällä tavalla käyttäjät voivat harjoitella mallia ja luoda ainutlaatuisia rytmejä omalla tyylillään.

2. Koulutusprosessi keskittyy tekijänoikeussuojaan

Generatiivisen tekoälyn nopean kehityksen taustalla on yhä kiihkeämpää keskustelua tekoälyn käytöstä musiikkiteollisuudessa, erityisesti tekijänoikeuskysymyksissä. Ed Newton-Rex, Stability AI:n entinen äänijohtaja, erosi tehtävästään vuoden 2023 lopussa, koska hän oli eri mieltä Stability AI:n tekijänoikeudella suojatun äänen käytöstä mallien koulutuksessa, koska hän uskoi tämän olevan etiikkaa vastaan. Hän oli mukana kehittämässä Stable Audiota.

Generatiivisen tekoälyn datakoulutus on kuin musta laatikko. Kukaan paitsi kehittäjä ei tiedä, ovatko koulutukseen käytetyt tiedot tekijänoikeudella suojattuja. "Monet monen miljardin dollarin teknologiayritykset käyttävät tekijöiden työtä generatiivisten tekoälymallien kouluttamiseen ilman lupaa ja käyttävät sitten näitä malleja uuden sisällön luomiseen", sanoi Newton-Rex, joka erosi kirjeessä ei hyväksy tällaista toimintaa, joka perustuu tekijöiden tekijänoikeuksien loukkaamiseen voiton saamiseksi.

Stability AI totesi, että tekijöiden tekijänoikeuksien kunnioittamiseksi Stable Audio Openin käyttämät tietojoukot ovat peräisin Freesoundilta ja Free Music Archivelta (FMA), ja kaikki käytetyt tallenteet ovat CC (Creative Commons) -lisenssillä julkaistuja äänitallenteita. CC on tekijänoikeuslisenssimekanismi, jonka avulla tekijät voivat jakaa teoksiaan ja säännellä, miten muut voivat käyttää niitä.

Varmistaakseen, että se välttää tekijänoikeuksilla suojatun materiaalin käyttämisen, Stability AI sanoo, että se tunnistaa musiikkinäytteet Freesoundissa äänimerkin avulla, ja tunnistetut näytteet lähetetään Audible Magicin sisällöntunnistusyritykselle varmistaakseen, että mahdollinen sisältö poistetaan tietojoukosta.

"Tämän avulla voimme luoda avoimen äänimallin kunnioittaen täysin tekijöiden oikeuksia", Stability AI sanoi.

Johtopäätös: Avoimen lähdekoodin ja ilmaiset mallit tekevät Vincent Audiosta suositumman

Stable Audio Openin lanseeraus on osoitus Stability AI:n innovaatiosta ja edistymisestä tekstistä ääneksi -mallien alalla. Vaikka tällä mallilla on tiettyjä rajoituksia äänen pituuden ja koherenssin tuottamisessa, sen edut ovat myös ilmeisiä. Se voi tuottaa korkealaatuista 44,1 kHz stereoääntä ilmaiseksi, ja se voi toimia kuluttajatason GPU:illa, mikä alentaa Vincent Audion käytön kynnystä.

Samalla Stable Audio Open avaa äänentuotantoteknologian ja asettaa samalla uuden mittapuun tekijänoikeussuojalle. Tulevaisuudessa teknologian jatkuvan kehittymisen ja eettisen kehityksen myötä Stable Audio Openin odotetaan hyödyntävän potentiaaliaan useammissa sovellusskenaarioissa ja edistävän äänentuotantoteknologian kehitystä ja popularisointia.

Tällä hetkellä Stable Audio Open -mallipainot ovat saatavilla koneoppimismallialustalla Hugging Face. Stability AI rohkaisee äänisuunnittelijoita, muusikoita, kehittäjiä ja kaikkia äänestä kiinnostuneita tutkimaan mallin ominaisuuksia ja antamaan palautetta.

Lähde: Stability AI

uutiset

Maailman kuumin AI-äänimalli, viimeisimmät tekniset yksityiskohdat paljastettiin

Johdanto

yhteystietoni