uutiset

GPT-4o spot muuttuu futuureiksi, mikä estää OpenAI:ta?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


RTC-tekniikka on yksi reaaliaikaisen tekoälyn suosion avaimista.


Tekijä |. ray
muokata|. Jingyu

Hän siirtyy elokuvista todellisuuteen.

Tämän vuoden toukokuussa OpenAI julkaisi uusimman tekoälyn multimodaalisen suuren mallin GPT-4o. Edelliseen GPT-4 Turboon verrattuna GPT-4o on kaksi kertaa nopeampi ja puolet halvempi. Reaaliaikaisen tekoälyn keskimääräinen viive on 2,8 sekuntia (GPT-3,5) 5,4 sekuntiin (GPT) verrattuna edelliseen versioon. -4), jopa 320 millisekuntia - melkein sama kuin ihmisen päivittäisen dialogin vastenopeus.

Tehokkuuden parantumisen lisäksi keskustelujen tunneanalyysistä on tullut myös yksi tämän tuotepäivityksen ominaisuuksista. Keskustelun aikana isännän kanssa tekoäly kuulee "hermostuneisuuden", kun hän puhui ja teki kohdennettuja ehdotuksia hengittää syvään.

OpenAI, on tulossa piipohjaiseksi "luojaksi" suurten mallien aikakaudella.

Lehdistötilaisuus oli kuitenkin järkyttävä, mutta todellisuus oli hyvin laiha. Tuotteen lanseerauksen jälkeen OpenAI:sta, tämän suuren malliteknologian vallankumouksen käynnistäjästä, on vähitellen tulossa kuin "futures" -yritys.

Monipuolisen, matalan latenssin GPT-4o:n julkaisun jälkeen reaaliaikaisen ääni- ja videotoiminnon julkaisu on edelleen viivästynyt, mutta se on myös viivästynyt.

Mutta tämä ei ole vain OpenAI:n ongelma - ChatGPT:n julkaisun jälkeen ChatGPT:stä on ollut yhtä monta kotimaista versiota kuin joen ylittävä karppi. Tällä hetkellä on kuitenkin vain yksi SenseTime 5.5, joka vertaa GPT-4o:ta , ja edistyminen on sama. Pysy avoimessa beta-vaiheessa kuukauden sisällä.

Miksi reaaliaikainen multimodaalinen suuri malli on lehdistötilaisuudessa vain yhden askeleen päässä muuttamasta maailmaa, mutta siirtyessään kohti tuotteistamista se muuttuu aina "pisteestä" "vaihtoehdoksi"?

Uusi ääni nousee esiin: multimodaalisessa maailmassa (algoritmisella) väkivallalla ei ehkä ole ihmeitä.

01

reaaliaikainen ääni,yksi kappale

On mentävä läpi/AI kaupallistamisreitti

Teknologian kypsyys auttaa uutta sinisen valtameren teollisuutta vähitellen muotoutumaan.

Piilaakson tunnetun pääomasijoituslaitoksen a16z:n tiedot osoittavat, että 50 parhaan AI-sovelluksen joukossa, joilla on maailmanlaajuisesti käyttäjiä, yhdeksän on muita tuotteita. Tekoälytuoteluettelon tiedot osoittavat, että AI Companionin käyntien määrä tämän vuoden toukokuussa oli 432 miljoonaa, mikä on 13,87 % enemmän kuin vuotta aiemmin.

Suuri kysyntä, nopea kasvu, suuri markkinatila ja tekoälyn kumppanuus tuo kaksinkertaisia ​​muutoksia liiketoimintamalleihin ja ihmisen ja tietokoneen vuorovaikutukseen.

Liiketoiminnan kypsyys pakottaa myös teknologian jatkuvan kehityksen päinvastaiseen suuntaan.Pelkästään tämän vuoden ensimmäinen puolisko on solmukohta, joten reaaliaikainen AI-äänitekniikka on jo käynyt läpi kolme iteraatiota vain kuudessa kuukaudessa.

Teknologian ensimmäisen aallon edustava tuote on Pi.

Tämän vuoden maaliskuussa start-up Inflection AI päivitti emotionaalisen chatbot Pi:n yksittäisille käyttäjille.

Pi-tuotteen käyttöliittymä on hyvin yksinkertainen Text + -valintaikkuna on interaktiivinen ydin, mutta se lisää myös tekoälyn äänitoimintoja, kuten äänen lukemista ja puheluita.

Tällaisen puhevuorovaikutuksen saavuttamiseksi Pi luottaa perinteiseen kolmivaiheiseen äänitekniikkaan: STT (Speech Recognition, Speech-to-Text) - LLM (Large Model Semantic Analysis) - TTS (Text To Speech). Sille on ominaista kypsä tekniikka, mutta hidas vaste, keskeisten tietojen, kuten äänen, ymmärtämisen puute ja kyvyttömyys saada aikaan todellista reaaliaikaista puhedialogia.

Toinen saman ajanjakson esillä oleva tuote on Call Annie. Verrattuna Pi:hen, Call Anniella on täydellinen videopuhelukokemus. Puheluihin vastaamisen ja katkaisun suunnittelun lisäksi kuuliainen toiminto voidaan myös minimoida ja vaihtaa muihin sovelluksiin, ja se tukee yli 40:tä keskustelurooliasetusta.

Niillä kaikilla on kuitenkin yhteisiä teknisiä ongelmia - korkea latenssi ja tunnevärien puute. Mitä tulee latenssiin, jopa alan edistyneimmässä OpenAI:ssa viive on 2,8 sekuntia (GPT-3,5) 5,4 sekuntiin (GPT-4).Emotionaalisesti tiedot, kuten äänensävy, äänenkorkeus ja puhenopeus, menetetään vuorovaikutuksen aikana, ja kehittyneitä puheilmaisuja, kuten naurua ja laulua, on mahdotonta tuoda ulos.

Tämän jälkeen uuden teknologian edustajana on tuote nimeltä EVI.

Hume AI toi tämän tuotteen markkinoille tämän vuoden huhtikuussa, ja se toi Hume AI:lle 50 miljoonaa dollaria (noin 362 miljoonaa juania) B-sarjan rahoituksessa.

Tuotesuunnittelun osalta Hume AI on lanseerannut taustalla olevaan algoritmiin leikkikenttätoiminnon. Käyttäjät voivat valita omat kokoonpanonsa ja suuret mallinsa.Mutta ero on siinä, että ääni kantaa tunteita, joten myös ilmaisun rytmi ja intonaatio muuttuvat.

Tämän funktion toteutus perustuu pääasiassa uuden SST-algoritmin (semanttinen tilateoria, semanttinen tilateoria) lisääminen perinteiseen STT-LLM-TTS kolmivaiheiseen prosessiin. SST voi piirtää tarkasti ihmisten tunteiden koko kirjon laajan tiedonkeruun ja kehittyneiden tilastollisten mallien avulla, paljastaen jatkuvuuden ihmisen tunnetilojen välillä, mikä antaa EVI:lle monia antropomorfisia piirteitä.

Emotionaalisen edistymisen hinta on ajan viivästymisen lisäuhri, aika, jonka käyttäjä joutuu odottamaan keskustellakseen EVI:n kanssa, on pitempi kuin Pi ja Call Annie.

Toukokuun puoliväliin mennessä GPT-4o julkaistiin, ja multimodaalitekniikan integroinnista tuli tämän ajanjakson tekninen suunta.

Verrattuna aiempiin kolmivaiheisiin äänivuorovaikutustuotteisiin, GPT-4o on uusi malli, joka on koulutettu päästä päähän tekstin, visuaalisen ja äänen välillä, mikä tarkoittaa, että kaikki tulot ja lähdöt käsitellään samassa hermoverkossa.

Myös viiveongelma on parantunut huomattavasti. OpenAI ilmoitti virallisesti, että GPT-4o:n reaaliaikainen äänivuorovaikutus voi vastata äänituloon nopeimmalla nopeudella 232 millisekunnissa ja keskimäärin 320 millisekunnissa. Emotionaalisesti käyttäjien ja tekoälyn välisestä vuorovaikutuksesta on tullut yhä älykkäämpää, ja puhenopeuteen ja tunneymmärrykseen on saatu muutoksia.

Tuotetasolla ihmisten on mahdollista rakastua tekoälyyn ja tekoäly korvaa sokeat ihmiset maailman näkemisessä.

Character.ai, joka lanseerasi hiljattain äänipuhelutoiminnon ja on silmiinpistävä uusi tähti Piilaaksossa vuonna 2024, on noussut tämän teknologia-aallon suurimmaksi edunsaajaksi.

Character.ai:ssa käyttäjillä on mahdollisuus lähettää tekstiviestejä animehahmojen, TV-persoonallisuuksien ja historiallisten henkilöiden kopioiden kanssa ultrarealistisessa roolileikkeissä. Uusi asetus on nostanut tuotteen käyttäjien määrää Samanwebin tietojen mukaan Character.ai pystyy käsittelemään 20 000 tekoälyn päättelypyyntöä sekunnissa, ja käyntien määrä oli toukokuussa peräti 277 miljoonaa.


Liikennevertailu Character.ai:n ja perplexity.ai:n välillä|Kuvan lähde: Hasonlóweb

Samaan aikaan Microsoft, Google ja muut ovat virallisesti ilmoittaneet, että heidän suuret mallinsa käynnistävät reaaliaikaiset äänipuhelutoiminnot.

Vedenpitävä tuotesuunnittelu, varsinaisessa toteutuksessa, näyttää kuitenkin aina Kolmen rotkon tulvapurkauksen toteutusvaikutuksen - kolmannessa aallossa lehdistötilaisuuden lähes "hänen" -tyyliset kumppanituotteet ovat kaikki muuttuneet todellisessa toteutuksessa tulee "suunnitelmaksi" käynnistää, lanseerataan pian ja on sisäisessä testauksessa.

Kiistaton johtopäätös on, että reaaliaikaisesta äänestä ja videosta voi tulla ihmisen ja tietokoneen vuorovaikutuksen lopullinen muotoAIKumppanikohtauksen lisäksi kohtausten, kuten pelin älykkäiden NPC:iden, AI-puhuneiden opettajien ja reaaliaikaisen käännöksen odotetaan kasvavan räjähdysmäisesti. Kuitenkin ennen sitä, kuinka ratkaista viimeinen maili "lehdistötilaisuudesta" tuotteen lanseeraukseen on alan vaikein ongelma nykyään.

02

AI reaaliaikainen ääni,

Ei ihmeitä suurella voimalla

AIReaaliaikainen ääni "ei ihmeitä suurilla ponnisteluilla", pessimistinen sanonta leviää hiljaa Piilaaksossa.

Vastustus tulee kaikilta tekniikan, sääntelyn ja liiketoiminnan näkökulmista.

Teknisen opposition henkinen johtaja on Yann LeCun, "konvoluutioverkostojen isä".

Hänen mielestään: Verrattuna useisiin aikaisempiin tekoälyalgoritmeihin suurten mallien tekniikan suurin piirre on, että "suuret ponnistelut voivat tuottaa ihmeitä". Big datan syöttämisen sekä satojen miljoonien parametrien ja korkean suorituskyvyn omaavien laskentaklustereiden laitteistotuen ansiosta algoritmeja voidaan käyttää monimutkaisempien ongelmien käsittelyyn ja parempaan skaalautumiseen. Olemme kuitenkin tällä hetkellä liian optimistisia suuriin malleihin, erityisesti näkemykseen, jonka mukaan multimodaaliset suuret mallit voivat olla maailmanmalleja, mikä on vielä enemmän hölynpölyä.

Esimerkiksi ihmisillä on viisi aistia, jotka muodostavat todellisen ymmärryksemme maailmasta, joka on koulutettu suuren määrän Internet-tekstien perusteella, jolta puuttuu havainnointi ja vuorovaikutus fyysisen maailman kanssa, ja siitä puuttuu myös tarpeeksi maalaisjärkeä. Siksi videon tai äänen luomisen prosessissa on aina näennäisesti saumatonta sisältöä, liikeratoja tai äänitunteita, mutta realismin puutetta. Lisäksi kovat fyysiset rajoitukset ovat myös ongelma. Koska mallin koko ja vuorovaikutusmitat kasvavat, nykyisillä suurilla malleilla ei ole riittävästi kaistanleveyttä tällaisten tietojen käsittelemiseksi.

sääntelytaso,AIReaaliaikainen puhe eli päästä päähän puheen suuri malli, kohtaa tekniikan ja etiikan välisen pelin.

Aiemmin STT-LLM-TTS:n kolmivaiheinen prosessi perinteisessä tekoälyteollisuudessa johtui ensin kehittymättömästä tekniikasta ja multimodaalinen vuorovaikutus. Samaan aikaan, koska itse ääntä on vaikeampi valvoa kuin tekstiä, tekoälyääntä voidaan käyttää helposti esimerkiksi puhelinpetoksissa, pornografiassa ja roskapostimarkkinoinnissa. Tarkastelun helpottamiseksi välitekstilinkki on myös tullut jossain määrin tarpeelliseksi.

Ja yritystasolla, End-to-end -suurten mallien koulutus vaatii suuren määrän YouTube- ja podcast-tietoja koulutusvaiheen aikana miljoonia dollareita.

Mitä tulee tällaisiin kustannuksiin, tavallisille tekoälyyrityksille on tällä hetkellä turhaa pudottaa rahaa taivaalta. He joutuvat myös maksamaan NVIDIAn huippuluokan tekoälykorteista, gigabitin tallennustilasta ja ehtymättömistä riskittömästä äänen ja videon tekijänoikeuksista. .

Tietenkin, olipa kyseessä Yang Likunin tekninen harkinta, mahdolliset sääntelyn vaikeudet tai kaupallistamisen kustannusdilemma, nämä eivät tietenkään ole avoimen AI:n ydinkysymyksiä.

Tee GPT-4o-luokasta todella reaaliaikainenAIPerimmäinen syy siihen, miksi puhevuorovaikutustuotteet ovat muuttuneet spotista futuureiksi, on projektin toteutuksen tasolla.

03

GPT-4o esittelyyn verkkokaapelin ollessa kytkettynä,

Hyödyllinen RTC-apu puuttuu edelleen

Hiljainen salaisuus alalla on, GPT-4o luokkaAIReaaliaikaiset puhetuotteet ovat teknisellä tasolla vain puolet voitosta.

GPT-4o:n julkaisun yhteydessä, vaikka väitettiin alhaiseksi latenssiksi, jotkut teräväsilmäiset käyttäjät huomasivat, että esittelyvideon matkapuhelin oli edelleen kytkettynä verkkokaapelilla.Tämä tarkoittaa myös sitä, että GPT-4o:n virallisesti ilmoittama keskimääräinen 320 ms:n viive on todennäköisesti demo kiinteistä laitteista, kiinteistä verkoista ja kiinteistä skenaarioista, ja se on laboratorioindikaattori, joka voidaan saavuttaa ihanteellisissa olosuhteissa.


OpenAI:n GPT-4o-julkaisukonferenssi osoittaa selvästi, että matkapuhelimet on kytketty |

missä on ongelma?

Purkamalla se tekniseltä tasolta, AI-reaaliaikaisten äänipuhelujen toteuttamiseksi algoritmitason kolme vaihetta yhdistetään yhdeksi, joka on vain yksi ydinlinkeistä. Toinen ydinlinkki, RTC-viestintätaso, on myös sarjassa teknisistä haasteista. Ns. RTC voidaan ymmärtää yksinkertaisesti äänen ja videon siirtona ja vuorovaikutuksena reaaliaikaisessa verkkoympäristössä. Se on tekniikka, joka tukee reaaliaikaista ääntä, reaaliaikaista videota ja muuta vuorovaikutusta.

Agoran äänitekniikan johtaja Chen Ruofei kertoi Geek Parkille, että todellisissa sovellusskenaarioissa käyttäjät eivät yleensä aina ole kiinteissä laitteissa, kiinteissä verkoissa ja kiinteissä fyysisissä ympäristöissä. Päivittäisissä videopuheluskenaarioissamme, kun toisen osapuolen verkko on huono, puheviiveet ja viiveet lisääntyvät. Tämä tilanne tulee esiin myös tekoälyn reaaliaikaisissa puheluissa, joten matala latenssi lähetys ja erinomainen verkon optimointi ovat tärkeitä RTC-lähetyksessä.

Lisäksi monilaitesovitus, äänisignaalin käsittely jne. ovat myös teknisiä näkökohtia, joita ei voida sivuuttaa tekoälyn reaaliaikaisen äänen toteutuksessa.

Kuinka ratkaista nämä ongelmat?

Vastaus piilee OpenAI:n uusimmissa rekrytointivaatimuksissa. OpenAI mainitsi erityisesti, että se haluaa rekrytoida insinööritaitoja auttamaan heitä ottamaan käyttöön edistyneimmät mallit RTC-ympäristössä.

Ratkaisukohtaisen valinnan kannalta GPT-4o:n käyttämä RTC-teknologia on WebRTC:hen perustuva avoimen lähdekoodin ratkaisu, joka pystyy ratkaisemaan tietyt teknisen tason viiveet sekä pakettien katoamisen, viestintäsisällön turvallisuuden ja poikkialustojen aiheuttamat ongelmat. eri verkkoympäristöjen yhteensopivuusongelmia.

Avoimen lähdekoodin B-puoli on kuitenkin tuotteistamisen heikkous.

Yksinkertaisena esimerkkinä mainittakoon, että usean laitteen mukauttamisongelmista voidaan todeta, että RTC:n käyttöskenaariot edustavat enimmäkseen matkapuhelimia, mutta eri matkapuhelinmallien viestintä- ja äänenkeräysominaisuudet vaihtelevat suuresti: tällä hetkellä Applen matkapuhelimet voivat saavuttaa vakaan viiveen. noin kymmeniä millisekunteja Kuitenkin, Android-ekosysteemissä, joka on suhteellisen monimutkainen, ei ole vain monia malleja, mutta myös huippuluokan tuotteiden välinen ero on varsin ilmeinen Keräys- ja viestintätasoilla voi olla jopa satoja millisekunteja.

Toisessa esimerkissä tekoälyn reaaliaikaisissa puhesovellusskenaarioissa ihmisen puhesignaalit voivat sekoittua taustakohinaan, jotta kohinan ja kaiun poistaminen voidaan varmistaa puhtaan ja laadukkaan puhesyötön varmistamiseksi, jotta tekoäly voi paremmin ymmärtää ihmisiä. sanotut sanat.

Monen laitteen yhteensopivuus ja edistyneet äänen kohinanvaimennusominaisuudet ovat myös se, mitä avoimen lähdekoodin WebRTC:ltä puuttuu.

Alan kokemus on pullonkaula avoimen lähdekoodin tuotteiden soveltamisessa. Siksi suuret mallinvalmistajat ja ammattimaiset RTC-ratkaisujen toimittajat tekevät yhteistyötä avoimen lähdekoodin ratkaisuihin verrattuna hioakseen ja optimoidakseen niitä, mikä voi jossain määrin paremmin edustaa tulevaisuuden alan trendejä.

RTC:n alalla Agora on tunnettu siitä, että se tarjoaa ääniteknologiaa Agoran virallisen verkkosivuston mukaan tunnettujen kotimaisten yritysten lisäksi Xiaomin, Bilibilin, Momon ja Xiaohongshun kaltaisten sovellusten lisäksi Lähi-idän ja Pohjois-Afrikan suurin ääniyhteisö- ja viihdealusta Yalla, Kumu, "King of Social Live Broadcasting Platforms" Kaakkois-Aasiassa, HTC VIVE, The Meet Group, Bunch ja muut maailmanlaajuiset alustat Tunnetut yritykset ovat ottaneet käyttöön Agoran RTC-teknologian.


Teollisuuden kokemuksen kertyminen ja globaalien asiakkaiden hiominen ovat lisätodisteita teknologisesta johtajuudesta. Chen Ruofein mukaan Shengwangin itse kehittämä SD-RTN™ reaaliaikainen siirtoverkko kattaa yli 200 maata ja aluetta ympäri maailmaa, ja äänen ja videon globaali päästä päähän -viive on keskimäärin 200 ms. Vasteena verkkoympäristön vaihteluihin SoundNetin älykäs reititystekniikka ja heikkoja verkkoalgoritmi voivat varmistaa puheluiden vakauden ja sujuvuuden. Päätelaitteiden erojen vuoksi Shengwang on kerännyt satoja miljoonia esiasennettuja sovelluksia ympäri maailmaa ja osaamista sopeutumisesta monimutkaisiin ympäristöihin.

Teknologisen johtajuuden lisäksi alan kokemus on näkymätön este.

Itse asiassa tästä syystä RTC-teollisuuden liiketoimintaympäristö on ollut suhteellisen vakaa vuosien ajan:Tehdäksemme hyvää työtä RTC:ssä emme ole koskaan luottaneet laajamittaiseen malliin "suuret ponnistelut voivat tuottaa ihmeitä".

Ainoa tapa saavuttaa lopullinen äänen viiveen optimointi ja reaaliaikaisen puhevuorovaikutuksen yleinen kaupallistaminen on kertynyt ja intensiivinen työ ajan mittaan.

Ja tästä näkökulmastaAIReaaliaikainen äänivuorovaikutus on taistelu, jota ei pidä aliarvioida mielikuvituksen ja vaikeuden suhteen.

Sen tulevaisuus - algoritmien, tarkastusten ja RTC:n on läpäistävä kaikki tasot. Tämän pitkän tien loppuunsaattamiseksi meidän on paitsi katsottava ylös teknologian tähtitaivaalle, myös oltava jalat tekniikan maassa.

*Otsikkokuvan lähde: Visual China

Tämä artikkeli on Geek Parkin alkuperäinen artikkeli

Geek kysyi

Mitä tekoälysovelluksia olet käyttänyt?


Zuckerbergin menestyksen salaisuus: Älä anna elokuvien hämätä sinua, kukaan ei tiedä, miten se alun perin tehdään.

Tykkää ja seuraaGeek Park -videotili