OpenAI:n "Her" on vaikea toimittaa.

2024-07-27

Mengchen tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Kaksi kuukautta ja kaksi viikkoa on kulunut, emmekä ole vieläkään nähneet OpenAI:n "Her" julkisesti julkaistua versiota.

14. toukokuuta OpenAI julkaisi GPT-4o jaPäästä päähän reaaliaikainen ääni- ja videokeskustelutila, elävä esittely tekoälydialogista yhtä sujuvasti kuin ihmiset.

Se tunnistaa hengitysrytmisi ja voi vastata reaaliajassa rikkaammalla äänellä kuin ennen. Se voi jopa keskeyttää tekoälyn milloin tahansa, ja vaikutus on hämmästyttävä.

Mutta kuten kaikki odottavat sitä, silloin tällöinlykätäuutiset ilmestyivät.

Mikä pidättelee OpenAI:ta? Tunnettujen tietojen mukaan:

omistaaOikeudelliset kiistat, jotta äänen sointi ei aiheuta kiistaa, kuten "leski sisar" Scarlett Johansson taas.

Siellä on myösTurvakysymys, on kohdistettava oikein, ja reaaliaikaiset ääni- ja videokeskustelut avaavat uusia käyttöskenaarioita, ja myös petostyökalun käyttö on yksi niistä.

Onko edellä mainittujen lisäksi kuitenkin teknisiä ongelmia ja vaikeuksia, jotka on voitettava?

Alkuperäisen jännityksen jälkeen asiantuntijat alkoivat katsoa ovea.

Teräväsilmäiset nettimiehet ovat saattaneet huomata,Lehdistötilaisuuden mielenosoituksen aikana matkapuhelin oli kytketty verkkokaapelilla.。

Alan sisäpiiriläisten silmissä GPT-4o-konferenssin esittely oli niin sujuvaa, mutta silti on useita rajoituksia:

tarve"Kiinteä verkko, kiinteät laitteet, kiinteä fyysinen ympäristö"。

Sen jälkeen, kun se on todella julkaistu yleisölle, ei ole vielä tiedossa, voivatko maailmanlaajuiset käyttäjät saada kokemuksen, joka ei ole vaarantunut lehdistötilaisuuteen verrattuna.

Lehdistötilaisuudessa oli toinenkin mielenkiintoinen yksityiskohta, komea tutkija Barret Zoph.ChatGPT:tä käytettiin taulukkona esiteltäessä videopuhelua。

Videopuhelun viive on ilmeinen.Kysymyksen ääniosa on käsitelty ja visuaalinen osa käsittelee edelleen edellistä laukausta., joka on puinen pöytä, jonka kamera on kuvannut, kun puhelin juuri nostettiin.

Kuvittele kuinka monet ihmiset käyttävät sitä sen jälkeen, kun se vihdoin julkaistaan?

Yksi promootiovideon puhutuimmista tapauksista, jossa sokea mies vilkutti taksia tekoälyäänen avulla, joutui heti nettiläisten puheille.

On kuitenkin myös huomattava, että tämä on aSkenaariot, jotka riippuvat voimakkaasti matalan viiveen ominaisuuksista, jos AI-opastus tulee hieman hitaammin, taksi ajaa ohi.

Verkkosignaali ei välttämättä ole taattu ulkonäkymissä, puhumattakaan kohtauksista, kuten lentokentistä, juna-asemilta ja matkailukohteista, joissa on paljon ihmisiä ja laitteita, jotka käyttävät kaistanleveyttä, joten vaikeus kasvaa huomattavasti.

myös,Myös meluongelmia ulkona esiintyy。

Suuria malleja vaivaa luonnostaan "illuusio"-ongelma. Jos kohina vaikuttaa käyttäjän äänen tunnistamiseen ja ilmaantuu joitain sanoja, jotka eivät liity ohjeisiin, vastaus on epäselvä.

Lopuksi on toinen ongelma, joka jää helposti huomiotta.Monilaitesovitus。

Voidaan nähdä, että nykyinen OpenAI-konferenssi ja promootiovideot käyttävät kaikki uutta iPhone Prota.

Saako saman kokemuksen saada halvemmissa malleissa, on odotettava virallista julkaisua.

OpenAI edistää GPT-4o:n käyttöäNiin lyhyt kuin 232 millisekuntia, keskimäärin 320 millisekuntiavastata äänisyötteeseen ajassa, joka on yhdenmukainen sen kanssa, kuinka nopeasti ihmiset reagoivat keskusteluun.

Mutta tämä on vain aika suuren mallin syötöstä lähtöön, ei koko järjestelmää.

Kaiken kaikkiaan vain tekemällä hyvää tekoälytyötä ei ole mahdollista luoda sujuvaa kokemusta, kuten "Her". Se vaatii myös useita ominaisuuksia, kuten alhaista latenssia, useiden laitteiden mukauttamista ja kykyä selviytyä. erilaisissa verkkoolosuhteissa ja meluisissa ympäristöissä.

AI yksin ei voi tehdä "hänestä"

Luotamme saavuttaaksemme alhaisen latenssin, usean laitteen mukautuksen jneRTC(Real-Time Communications, Real-Time Communications) -tekniikkaa.

Ennen tekoälyn aikakautta RTC-tekniikkaa oli käytetty laajasti suorissa lähetyksissä, videoneuvotteluissa ja muissa skenaarioissa, ja sen kehitys oli suhteellisen kypsää.

RTC:n näkökulmasta käyttäjän äänikehotteiden on käytävä läpi joukko monimutkaisia prosesseja ennen kuin ne syötetään suureen malliin.

Signaalin hankinta ja esikäsittely:Päätypuolen laitteissa, kuten matkapuhelimissa, käyttäjän ääni kerätään alkuperäisiksi signaaleiksi ja käsitellään, kuten kohinanvaimennus ja kaiunpoisto, valmistautuakseen myöhempään tunnistamiseen.

Puheen koodaus ja pakkaus: Lähetyksen kaistanleveyden säästämiseksi mahdollisimman paljon puhesignaali on koodattava ja pakattava. Samanaikaisesti joitain redundanssi- ja virheenkorjausmekanismeja on lisättävä adaptiivisesti todellisten verkkoolosuhteiden mukaan verkkopakettien häviämisen estämiseksi.

verkkolähetys: Pakatut puhetiedot jaetaan datapaketteihin ja lähetetään pilveen Internetin kautta. Jos fyysinen etäisyys palvelimesta on pitkä, lähetyksen on usein kuljettava useiden solmujen kautta, ja jokainen hyppy voi aiheuttaa viivettä ja pakettihäviöitä.

Äänen dekoodaus ja palautus:Kun datapaketti saapuu palvelimelle, järjestelmä purkaa sen ja palauttaa alkuperäisen äänisignaalin.

Lopulta oli tekoälyn vuoro ryhtyä toimiin.Ainoastaan muuntamalla ensin puhesignaali tunnisteiksi Embedding-mallin kautta, päästä päähän -multimodaalinen suuri malli pystyy ymmärtämään ja luomaan vastauksia.

Tietenkin sen jälkeen, kun suuri malli on luonut vastauksen, sen täytyy käydä läpi sarja käänteisiä prosesseja, ja sitten vastauksen äänisignaali lähetetään lopulta takaisin käyttäjälle.

Koko prosessin jokainen vaihe vaatii äärimmäistä optimointia, jotta todella saadaan aikaan reaaliaikainen AI-äänen ja -videon dialogi.

Niistä itse suuren mallin pakkaus, kvantisointi ja muut menetelmät vaikuttavat tekoälyn ominaisuuksiin, joten yhteinen optimointi yhdistettynä tekijöihin, kuten äänisignaalin käsittelyyn ja verkkopakettien häviämiseen, on erityisen tärkeää.

On selvää, että OpenAI ei ratkaissut tätä ongelmaa itsenäisesti, vaan päätti tehdä yhteistyötä kolmannen osapuolen kanssa.

Yhteistyökumppanit ovatAvoimen lähdekoodin RTC-toimittaja LiveKit, josta on tällä hetkellä tulossa alan painopiste ChatGPT-äänitilan tuella.

OpenAI:n lisäksi LiveKit on tehnyt yhteistyötä myös siihen liittyvien tekoälyyritysten, kuten Character.ai ja ElevenLabs, kanssa.

Ehkä paitsi muutama jättiläinen, kuten Google, joilla on suhteellisen kypsä itse kehittämä RTC-tekniikka,Yhteistyö alaan erikoistuneiden RTC-valmistajien kanssa on tämän hetken valtavirtavalinta tekoälyn reaaliaikaisille audio- ja videodialogisoittimille.。

Tietenkin tähän aaltoon liittyy myös kotimaisten toimijoiden osallistuminen Monet kotimaiset tekoälyyritykset ovat jo tehostaneet kokonaisvaltaisten multimodaalisten suurten mallien ja tekoälyn reaaliaikaisten ääni- ja videokeskustelusovellusten kehitystä.

Voivatko kotimaiset tekoälysovellukset saavuttaa OpenAI:n tulokset, ja milloin jokainen voi todella kokea sen itse?

Koska nämä hankkeet ovat pohjimmiltaan alkuvaiheessa, paljon tietoa ei ole paljastettu julkisesti, mutta niiden RTC-kumppanitääniverkkoSiitä tuli läpimurto.

Qubit tiedusteli Sound Networkista,Nykyisellä kotimaisella teknologiatasolla keskustelukierroksen viive voidaan lyhentää noin 1 sekuntiin., yhdistettynä enemmän optimointitekniikoihin, ei ole enää ongelma saada aikaan sujuvaa keskustelua, joka voi vastata ajoissa.

Tehdäkseen RTC:n hyvin, tekoäly ei ole vain "Hän"

Kuka on SoundNet?

RTC-alan edustava yritys, josta tulee ensimmäinen globaali reaaliaikainen interaktiivinen pilvipalvelun tarjoaja vuonna 2020.

Ensimmäinen kerta, kun SoundNet poistui alalta, johtui siitä, että se tarjosi teknistä tukea Clubhouselle, menestyneelle sosiaaliselle äänisovellukselle.

Itse asiassa monet tunnetut sovellukset, kuten Bilibili, Xiaomi ja Xiaohongshu, ovat valinneet Agoran RTC-ratkaisun, ja myös ulkomainen liiketoiminta on kehittynyt nopeasti viime vuosina.

Joten miten tekoälyn reaaliaikaisissa ääni- ja videodialogisovelluksissa ratkaistaan matalan latenssin ja usean laitteen mukauttamisen vaikeudet ja mitä vaikutuksia voidaan saavuttaa?

Olemme kutsuneetZhong Sheng, johtava tutkija ja Shengwangin teknologiajohtajavastata tähän kysymykseen.

Zhong Shengin mukaan suurta mallipäätelmää ei lasketa;Sanotaan vain, että aika, joka kestää signaalin siirtymiseen edestakaisin verkkolinjalla, voi olla jo 70-300 millisekuntia.。

Keskitymme erityisesti optimointiin kolmesta näkökulmasta.

ensimmäinen,Shengwang on rakentanut yli 200 datakeskusta ympäri maailmaa, ja yhteyksiä muodostettaessa valitut paikat ovat aina lähinnä loppukäyttäjiä.

Yhdessä älykkään reititystekniikan kanssa, kun tietty linja on ruuhkautunut, järjestelmä voi automaattisesti valita muita polkuja paremmalla viiveellä ja kaistanleveydellä varmistaakseen viestinnän laadun.

Jos alueiden välistä lähetystä ei ole mukana, päästä päähän voi olla alle 100 ms. Jos se sisältää alueiden välistä, kuten Kiinasta Yhdysvaltoihin, se kestää todennäköisemmin 200–300 ms.

toinen, Vuonna 2014 perustettu Shengwang analysoi useita heikkoja verkkoskenaarioita tiedon louhinnan avulla vuosien varrella kertyneen valtavan määrän todellisen kohtausdatan perusteella ja toistaa ne sitten laboratoriossa. Tämä tarjoaa "laukaisualueen" lähetysalgoritmin optimoimiseksi niin, että se pystyy selviytymään monimutkaisista ja muuttuvista verkkoympäristöistä, kun se voi tehdä oikea-aikaisia muutoksia lähetysstrategiaan, kun vastaava heikko verkkotila tapahtuu reaaliaikaisen lähetyksen aikana. tasaisempi.

kolmas, Pystytoimialoilla ja erityistehtävissä Shengwang yrittää myös räätälöidä malleja pienemmillä parametreilla pakkaamaan suurten mallien vasteaikaa. Suurten kielimallien ja tietyn kokoisten puhemallien äärimmäiset ominaisuudet ovat tutkimisen arvoisia suuntauksia, jotka ovat avainasemassa keskusteluteknisen tekoälyn tai chatbottien kustannustehokkuuden ja alhaisen latenssin optimoinnissa.

viimeinkin, Shengwangin kehittämä RTC SDK on myös mukautettu ja optimoitu eri päätelaitteisiin, erityisesti joihinkin halvempiin malleihin, joilla voidaan saavuttaa alhainen virrankulutus, alhainen muistin käyttö, erittäin pieni pakkauskoko jne. Erityisesti AI-algoritmeihin perustuvat laitepuolen ominaisuudet, kuten äänen kohinan vaimennus, kaiun vaimennus ja videon laadun parantaminen, voivat vaikuttaa suoraan tekoäly-chatbotin laajuuteen ja vaikutukseen.

Zhongsheng esitteli myös, että RTC:n ja suurten mallien teknologian yhdistelmää tutkittaessa myös itse RTC-tekniikan laajuus on muuttumassa.

Hän mainitsi joitain ajatussuuntiaan, kuten siirtymisen äänisignaalien lähettämisestä suurilla malleilla suoraan ymmärrettäviin tokeneihin ja jopa puheen tekstiksi (STT) ja tunnetunnistuksen toteuttamisen lopussa niin, että vain teksti ja emotionaaliset parametrit.

Näin päätypuolelle voidaan sijoittaa enemmän signaalinkäsittelyprosesseja ja vähemmän laskentatehoa vaativa Embeding-malli voidaan sijoittaa lähemmäs käyttäjää, mikä vähentää koko prosessin kaistanleveysvaatimuksia ja pilvimallin kustannuksia.

Tästä pisteestä lähtien Zhong Sheng uskoo, että AI- ja RTC-teknologian lopullinen yhdistelmä siirtyy kohti laitteiden ja pilvien integrointia.

Toisin sanoen et voi täysin luottaa suuriin malleihin pilvessä. Tämä ei ole paras valinta kustannusten, energiankulutuksen ja viivekokemuksen kannalta.

Loppupilviintegraation näkökulmasta koko infrastruktuurin on muututtava vastaavasti. Laskentateho ei ole vain pilvessä, vaan myös matkapuhelimien laskentatehoa käytetään. Myös reunan lähetyssolmut jakavat laskentatehoa, ja tiedonsiirtoprotokollakin muuttuu vastaavasti...

Tällä hetkellä Agora ja suuret mallisovellusvalmistajat ovat keksineet, mitenKolme yhteistyömallia, eli koko järjestelmän kolmen osan eri toimitustavat: iso malli, RTC ja pilvipalvelin:

Yksityinen käyttöönotto:Shengwang tarjoaa vain RTC SDK:ta, joka otetaan käyttöön yhdessä suurten mallien kanssa kumppaneiden omissa datakeskuksissa. Se sopii yrityksille, joilla on itse kehitetyt suuret mallit tai laaja mallipäättelyinfrastruktuuri.
Shengwang Cloud Platform: Shengwang tarjoaa RTC SDK- ja pilvipalvelinresursseja, ja kehittäjät voivat joustavasti valita mallit, käyttöönottopaikat ja laskentaresurssit tarpeidensa mukaan. Sinun ei tarvitse rakentaa omaa infrastruktuuria, ja voit rakentaa tekoälyn äänisovelluksia nopeasti.
Agora päästä päähän -ratkaisu: Shengwang tarjoaa itse kehitettyjä suuria malleja, RTC SDK:ta ja pilvipalvelinresursseja. Pystysuuntaiset mallit voidaan räätälöidä segmentoiduille aloille, kuten koulutukseen, sähköiseen kaupankäyntiin, sosiaaliseen viihteeseen, asiakaspalveluun jne., ja ne on integroitu syvästi RTC-ominaisuuksiin integroitujen puhevuorovaikutusratkaisujen tarjoamiseksi.

Lisäksi olemassa olevissa yhteistyöprojekteissa nopein hakemus ei ole kaukana kaikkien kohtaamisesta.

Kommunikaatiossa Acoustic Networkin kanssa on toinen uusi huomionarvoinen suuntaus kubittien löytämisessä:

Kotimaiset tekoälysovellukset ylittävät vähitellen tekoälyavustajan kysymysten ja vastausten sekä tekoälyn tunnekumppanuuden.

Otetaan esimerkiksi sosiaalisen viihteen, sähköisen kaupankäynnin suoratoisto ja verkkokoulutus, joihin kaikki kiinnittävät eniten huomiota, ovat Internet-julkkisankkurit ja kuuluisat opettajat. Tekoälyn reaaliaikaisen ääni- ja videovuoropuhelun ohjaamista digitaalisista ihmisistä voi tulla heidän "digitaalisia kloonejaan", jotka voivat olla vuorovaikutuksessa henkilökohtaisesti jokaisen fanin tai opiskelijan kanssa. Samalla käyttäjän oma aika ja energia ovat myös rajallisia, eikä heillä ole taitoja jakaa itseään useisiin tehtäviin, ja he tarvitsevat myös omia tekoälyklooneja. Teknologian kehittymisen, tekoälyn avatarteknologian kokemuksen paranemisen ja kustannusten alenemisen myötä niiden sovellusalue laajenee yhä enemmän.

Otetaan Zhong Shengin sanat: "Ihmisille niukin asia on aika":

Meillä kaikilla on oltava tämä kokemus. Entä jos kaksi kokousta on ristiriidassa ja voimme osallistua vain yhteen?

Voit osallistua johonkin itse ja lähettää tekoälyassistentin toiseen tapahtumaan tuomaan mielenkiintoista tietoa. Tulevaisuudessa tämä avustaja voi olla jopa oma AI-avatarisi Aktiviteetin aikana voit käydä henkilökohtaista viestintää, kysyä tai vastata erilaisiin kysymyksiin omien kiinnostuksen kohteidesi ja huolenaihesi perusteella sekä olla vuorovaikutuksessa muiden ihmisten tai muiden avatarien kanssa.

Siksi tekoälyn reaaliaikainen ääni- ja videovuoropuhelu voi tehdä paljon enemmän kuin vain "Her".

uutiset

OpenAI:n "Her" on vaikea toimittaa.

Johdanto

yhteystietoni