uutiset

kiinan ensimmäinen suuren mittakaavan äänen sukupolven malli läpäisi hakemuksen

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 20. syyskuuta, kiinan shanghain kyberavaruushallinto julkaisi äskettäin uusimman luettelon shanghain suurten mallien rekisteröintiluetteloista malli läpäisi yhdessä rekisteröintiprosessin ja siitä tuli ensimmäinen laajamittainen äänentuotantomalli maassa, joka sai generatiivisia tekoälypalveluita kiinan kyberavaruushallinnolta.

himalajan äänimalli on maailman ensimmäinen neljännen sukupolven äänimalli, jossa on monia tunteita sisältävä tulkinta ja yliluonnollinen ilmaisu.tämä malli johtaa aigc:n kehitystä koko audioteollisuudessa kolmannen sukupolven audiosukupolven mallista neljännen sukupolven audiosukupolven suureen malliin.

himalajan äänimalli on llm-kehys, joka perustuu everest ai -tiimin itse kehittämään yhteiseen tekstin ja äänen mallinnukseen. se toteuttaa äänen ja tekstin yhteisen mallinnuskoulutuksen saman tilavektoriesityksen alla.tämä yhteinen mallinnusmenetelmä varustaa äänen generointitehtävän täysin tehokkaalla semanttisella informaatiolla ja hyödyntää täysimääräisesti niiden välisiä luontaisia ​​yhteyksiä ja täydentävää tietoa., mikä parantaa huomattavasti mallin suorituskykyä ja yleistysominaisuuksia. tämä on myös neljännen sukupolven suurien äänimallien ydintekninen läpimurto, joka ylittää edellisen sukupolven.

harjoitteluprosessin aikana himalayan everest ai esikäsittelee ensin äänidatan ja tekstidatan, muuntaa ne mallin syöttämiseen sopiviksi merkkimuodoiksi ja kartoittaa äänimerkit ja tekstitunnisteet samaksi tilavektoriesitykseen, jotta malli voi paremmin ymmärtää ja käsitellä äänen ja tekstin välinen suhde. kokonaiskoulutusprosessi sisältää useita pääprosesseja: esiharjoittelu (pretraining), valvottu hienosäätö (sft), toimialueen valvottu hienosäätö (domain sft), kaiuttimen ohjattu hienosäätö (speaker sft) ja vahvistusoppiminen (rl). näiden prosessien koulutuksen avullamallissa on seuraavat ominaisuudet: (1) 15s äänen kloonauskyky ja äänen muunnoskyky. (2) hyper-antropomorfinen, monitunteinen, ihmisen mieltymysten mukaisen puheen generointi. (3) hyvin hallittava tyyli ja paralingvistinen kyky.

himalajan everestin tekoälyn tutkimus- ja kehitystiimi arvioi koulutetun mallin ja havaitsi, että pitkän äänisisällön, kuten ääniromaanien, kontekstissa hahmojen tulkintatyylin hallittavuus, foneemin suorituskyvyn vakaus sekä puhevirran ja rytmittaukojen luonnollisuus olivat merkittäviä. korkeampi kolmannen sukupolven äänimalli kotona ja ulkomailla.

himalajan audio-suurmalli toteuttaa paradigman "tuotannon ja mallin yhdistelmä", yhdistämällä toimialan malliin muodostaen positiivisen palautesilmukan liiketoiminnasta, datasta ja algoritmeista. sitä käytetään laajasti yritysskenaarioissa, kuten aigc-äänikirjoissa ja chat-keskusteluvuorovaikutuksessa. esimerkiksi hiljattain suosittu äänikirja "my altay" on luotu himalajan audio-suurmallilla. himalaya everest ai totesi, että suuren äänimallin ominaisuudet voidaan kokea suoraan everest ai:n virallisella verkkosivustolla ja käyttäjät voivat luoda suoraan oman äänisisältönsä.