uutiset

"Kiinan ensimmäinen malli, jossa on GPT-4o:n ääniominaisuudet", Xinchen Lingo -ääni-AI-malli on avoinna sisäisille testausvarauksille

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House raportoi 24. elokuuta, että Jinke Tomcatin sijoittama Xihu Xinchen lanseerasi tämän vuoden elokuussa suuren äänimallin. Se on ensimmäinen kokonaisvaltainen äänimalli Kiinassa. Avoin betatestausaika.

Elokuun 21. päivänä julkaistussa tiedotteessa virallisessa esittelyssä todettiin, että perinteiseen TTS:ään verrattuna end-to-end voice large -malli on kattavampi tekniikka.Se ei vain tue puheentunnistusta, vaan myös integroi useita linkkejä, kuten luonnollisen kielen käsittelyn, tarkoituksentunnistuksen, dialogin hallinnan ja puhesynteesin, toteuttaen täydellisen vuorovaikutusprosessin puhesyötteestä puhepalautteeseen, mikä rikastuttaa suuresti ihmisen syvyyttä ja laajuutta. tietokoneen vuorovaikutusta.

Viitaten viralliseen lehdistötiedotteeseen IT Home totesi, että Xinchen Lingo -äänimalli on ensimmäinen malli Kiinassa, joka pystyy saavuttamaan GPT-4o-ääniominaisuudet. Siinä on seuraavat kolme merkittävää teknisten ominaisuuksien ominaisuutta:

Äidinpuheen ymmärtäminen:Päästä päähän -mallina Xinchen Lingo ei tunnista vain tekstiä puheessa, vaan myös sieppaa tarkasti muita tärkeitä ominaisuuksia, kuten tunteita, sävyjä, äänenkorkeutta ja jopa ympäristöääniä, mikä auttaa mallia ymmärtämään puheen sisältöä kattavammin. , mikä tarjoaa luonnollisemman ja elävämmän interaktiivisen kokemuksen.

Useita äänityylejä:Xinchen Lingo voi mukautuvasti säätää puheen nopeutta, korkeutta ja kohinan voimakkuutta kontekstin ja käyttäjän ohjeiden mukaan, ja se voi luoda puhevastauksia eri tyyleissä, kuten dialogissa, laulamisessa, ylikuulumisessa jne., mikä parantaa tehokkaasti mallin joustavuutta eri tilanteissa. sovellusskenaariot ja sopeutumiskyky.

Puhemodaalinen superpakkaus:Xinchen Lingo käyttää puhekoodekkia, jolla on satoja kertoja suurempi pakkaussuhde, joka voi pakata puheen erittäin lyhyeksi, mikä vähentää merkittävästi laskenta- ja tallennuskustannuksia ja auttaa mallia luomaan korkealaatuista puhesisältöä.