uutiset

Keskustelu Qi Pengin tiimin kanssa Shanghain Jiao Tong -yliopiston Chongqing AI Research Institutessa: Suurien mallien nykytaso vastaa vain viisivuotiaan lapsen tasoa |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Kuvan lähde: unsplash)

Äskettäin keskustelua herätti uutinen aiheesta "Suuri malli ei voi määrittää, onko 9.11 vai 9.9 suurempi".

Kun käyttäjä kysyi 12 suurelta tekoälymallilta kotimaassa ja ulkomailla, mukaan lukien GPT-4o, peruskoulun oppilaille vaikea matemaattinen kysymys: "Kumpi on suurempi, 9.11 vai 9.9?", lopputuloksena oli vain Alibaba Tongyi. Qianwen ja Baidu Wenxin , Minimax ja Tencent Yuanbao antoivat 4 oikeaa vastausta, kun taas 8 suurta mallia, mukaan lukien ChatGPT-4o, antoivat vääriä vastauksia.

Tämä tarkoittaa, että suurten mallien matemaattiset ominaisuudet ovat heikkoja ja ratkaistava on monia ongelmia.

Aiemmassa eksklusiivisessa keskustelussa TMTpost AGI:n kanssa tohtori Qi Peng, Shanghain Jiao Tong -yliopiston Chongqingin tekoälyn tutkimusinstituutin (Shanghai-Chongqing Artificial Intelligence Research Institute) tekoälyn suuren mallikeskuksen johtaja, sanoi, että vaikka suurilla malleilla on hyvä potentiaalinen ja pystyy käsittelemään monimutkaisia ​​ongelmia ja heillä on kyky oppia yleistä hahmottelukykyä. Suuret kielimallit voivat kuitenkin olla enemmän kuin "vapaiden taiteiden opiskelijat" malliarkkitehtuurin rajoitusten ja tieteellisten kykyjen puutteen vuoksi. Lisäksi nykyinen rajoitettu laskentateho on riittämätön, tekstidata on riittämätön, tarkkuus ja luotettavuus ovat puolueellisia, eikä mallin skaala ole riittävän suuri, sen älykkyys on edelleen lapsen tasolla, enemmän kuin "viisivuotiaan lapsen". ", ja monimutkaisia ​​tehtäviä on vaikea hoitaa. , "illuusio" on olemassa pitkään.

Qi Peng valmistui Tsinghuan yliopistosta kandidaatin tutkinnolla ja suoritti tohtorin tutkinnon Wisconsinin yliopistossa Yhdysvalloissa. Hän työskentelee tällä hetkellä Shanghai Jiao Tong -yliopiston Chongqingin tekoälyn tutkimuslaitoksessa. Qi Peng on ollut syvästi mukana datatieteessä, tekoälyssä ja muilla aloilla useiden vuosien ajan, osallistunut moniin kansallisiin tiede- ja teknologiaprojekteihin ja omistaa useita immateriaalioikeuksia.

ChatGPT:stä on tullut suosittu ympäri maailmaa noin viimeisen vuoden aikana, joten Qi Peng on johtanut Shanghai Jiao Tong -yliopiston ja Chongqingin tekoälyn tutkimusinstituutin tekoälyn suuren mallikeskuksen tiimiä kehittämään itsenäisesti suuren "Zhaoyan"-kielimallin, ja tämän vuoden maaliskuussa kiinalainen SuperCLUE suuren mallin agenttiarviointi sijoittui vertailuissa kolmanneksi maailmanlaajuisesti ja toiseksi kotimaassa.

Samaan aikaan tämän vuoden heinäkuussa Qi Peng johti Shanghain Jiao Tong -yliopiston tohtoriopiskelijan Zhuang Shaobinin ja muut osallistumaan avoimen lähdekoodin yhteisöprojektiin ja toistivat onnistuneesti Soran kaltaisen Wensheng-videomallin käyttämällä edistynyttä Lattea tarkkailun spatiotemporaalinen irrotusarkkitehtuuri, se pystyi huolellisen harjoittelun jälkeen 16 sekunnin (128 kehyksen) videon luomiseen InternVid-videotietojoukossa verrattuna edelliseen avoimen lähdekoodin malliin, joka voi tuottaa vain 3 sekunnin (24 -frame) video, suorituskyky paranee 5 kertaa (500%).

Heinäkuun 12. päivänä Qi Peng ja Zhuang Shaobin kävivät eksklusiivisen keskustelun TMTpostin kanssa noin kahden tunnin ajan keskittyen Soran nykyiseen kehitystilanteeseen ja suurten mallien kehityksen, toimialan käyttöönoton ja tulevien kehityssuuntien haasteisiin.

Puhuessani Sora-teknologian vaikutuksista, Qi Peng kertoi TMTpost AGI:lle, että Sora on enemmän kuin uusi "vasara", joka voi ratkaista erilaisia ​​​​ongelmia. Videon generoinnin lisäksi Sora Vincent -videomallilla voi olla rooli myös monilla aloilla, kuten autonomisessa ajamisessa ja fyysisen maailman simuloinnissa. Intuitiivisin sovellus on videoiden luominen. Käyttäjien tarvitsee vain kirjoittaa tekstikuvaus luodakseen nopeasti vaatimukset täyttävää videosisältöä, mikä parantaa videotuotannon tehokkuutta ja mukavuutta.

Mitä tulee teollisuuden käyttöön, Qi Peng huomautti, että suuria malleja käytetään laajasti useilla vertikaalisilla aloilla, mutta varsinaisia ​​toteutustapauksia on suhteellisen vähän. Syitä on kaksi: ensinnäkin suurten mallien matemaattisten kykyjen ja suunnittelukyvyn puute, toiseksi, osana koneoppimisen luokkaa, tilastollisiin menetelmiin perustuvien suurten mallien luonne määrää, etteivät ne pysty saavuttamaan 100 % tarkkuutta.

Odotan innolla AGI:n tulevaa kehitystä, Qi Peng korosti, että ihmisyhteiskunta on kriittisessä jaksossa, joka johtaa AGI:hen. Vaikka nykyisen mallin ominaisuudet eivät täytä AGI-standardeja, joku päivä tulevaisuudessa, kun ihmiset muistelevat tätä historian ajanjaksoa, he saattavat huomata, että ChatGPT on asettanut meidät tärkeälle historialliselle solmulle.

"Instituutin tärkeä tavoite on toteuttaa teknologian kaupallistaminen. Suuri mallikeskus keskittyy parhaillaan AIGC:n toteuttamiseen, erityisesti viimeiseen mailiin, miten tutkimustulokset muunnetaan todellisiksi tuotteiksi tai palveluiksi markkinoiden tyydyttämiseksi. Vaikka suurten mallien älykkyys voi edelleen kehittyä viidestä kymmeneen vuoteen 18 vuoden ikään ja saavuttaa jopa huippuasiantuntijoiden tason, tällaiset järjestelmät tarvitsevat aina tukitiloja ja työkaluja, jotka tukevat niiden toimintaa ja käyttöä. Kiinteistökehityskustannukset voivat olla suhteellisen alhaiset, mutta niillä on ratkaiseva rooli suurten mallien käytännön soveltamisen ja sosiaalisen arvon edistämisessä", Qi Peng sanoi.


Tri Qi Peng, Shanghai Jiao Tong -yliopiston Chongqingin tekoälyinstituutin tekoälyn suuren mallikeskuksen johtaja

Seuraavassa on yhteenveto TMTpost Media AGI:n ja Qi Pengin ja Zhuang Shaobinin välisestä keskustelusta:TMTpost Media AGI: Mitkä ovat Shanghai Jiao Tong -yliopiston Chongqingin tekoälyn tutkimuslaitoksen yhdessä kehittämän Sora Vincent -videomallin ydinerot muihin videomalleihin verrattuna?

Qi Peng: Tämän projektin on kehittänyt tohtori Zhuang Shaobinin johtama tiimi. Tiimi päätti käyttää kaikkea avoimen lähdekoodin dataa mallikoulutukseen. Tiimi ei vain avannut tietoja, vaan myös julkisti koulutusprosessin. Näin muut tutkijat tai kehittäjät voivat toistaa mallin koulutusprosessin omassa ympäristössään samojen vaiheiden ja parametriasetusten perusteella ja varmistaa mallin tehokkuuden ja vakauden.

Keskeiset erot näkyvät pääasiassa kolmessa näkökohdassa:

Ensinnäkin tiimi käyttää kaikkea avoimen lähdekoodin dataa mallikoulutukseen, mikä tarkoittaa, että koko koulutusprosessi perustuu julkisesti saatavilla oleviin tietokokonaisuuksiin. Tämä lähestymistapa varmistaa koulutusprosessin läpinäkyvyyden ja toistettavuuden, ja kuka tahansa kiinnostunut voi käyttää samaa tietojoukkoa mallin toistamiseen tai parantamiseen.

Toiseksi tiimi otti käyttöön epäsuoran koulutusmenetelmän, jolla mallia voidaan kouluttaa tehokkaasti pienemmillä laskentakustannuksilla. Tämä lähestymistapa sopii suuren mittakaavan tietojoukoille ja monimutkaisille malleille, koska ne vaativat pidempiä koulutusaikoja ja suurempia laskentaresursseja. Epäsuoraa koulutusta käyttämällä voidaan koulutusaikaa lyhentää lisäämällä laskentasolmujen määrää ilman, että yhden laskentasolmun laskentatehokustannukset nousevat.

Kolmanneksi tiimi teki myös joitain taustalla olevia optimointitöitä, erityisesti videomuistin optimointia. Nämä optimoinnit mahdollistavat sen, että malli voi harjoitella vakaasti pitkiä videoita klusterilla tai palvelimella, mikä parantaa mallin harjoittelun tehokkuutta ja skaalautuvuutta.

TMTpost AGI: Mikä logiikka ja syyt ovat avoimen lähdekoodin mallin valinnassa?

Qi Peng: Toisin kuin kaupallisissa projekteissa, avoimen lähdekoodin mallin etuna tutkimusprojekteissa, joissa tiimit ja avoimen lähdekoodin yhteisöt tekevät yhteistyötä, on se, että ne voivat houkutella lisää T&K-henkilöstöä osallistumaan. Koska tekijänoikeus- ja kaupallistamisrajoituksia ei ole, jokainen tästä projektista kiinnostunut voi helposti hankkia ja käyttää mallia, ehdottaa omia parannusehdotuksiaan tai tarjota uutta koodia. Tämä malli voi auttaa mallien jatkuvassa parantamisessa ja optimoinnissa sekä voi myös vahvistaa tieteidenvälistä ja kenttienvälistä viestintää ja yhteistyötä.

TMTpost AGI: Tämä toistuva Sora-tyyppinen videomalli käyttää Latte spatiotemporal coupling -huomio-arkkitehtuuria. Mikä on syy siihen, että se ei ole yhteydessä DiT-arkkitehtuuriin?

Qi Peng: Tiimin kehittämä Sora-tyyppinen malliarkkitehtuuri ei hylkää kokonaan Transformeria tai muita perinteisiä malleja. Se laajenee DiT:n pohjalta ja lisää aikaulottuvuutta videonkäsittelyn tukemiseen. Tätä uutta arkkitehtuuria harkitaan ehkä paremmin sopeutumista videodatan ominaisuuksiin ja mallin suorituskyvyn parantamista videon luonti- tai käsittelytehtävissä.

Titanium Media AGI: DiT-arkkitehtuurilla on rajoituksia pitkien videoiden luomisessa. Voiko Latten spatiotemporaalinen huomiointiarkkitehtuuri ratkaista nämä ongelmat?

Zhuang Shaobin: Paras tiimin tällä hetkellä kouluttama malli pystyy luomaan jopa 16 sekunnin pituisia videoita. Tämä on valtava parannus aiempiin unet-arkkitehtuuriin perustuviin malleihin, jotka pystyivät yleensä tuottamaan vain kahdesta kolmeen sekuntia videota. 16 sekuntia ei ole erityisen pitkä aika, mutta se on suhteellisen pitkä ennätys videon luomisen alalla.

Videoiden luonnin jatkuvuuteen ja koherenssiin liittyvät ongelmat, joihin vaikuttaa pääasiassa tiedon laatu. Jos videodatassa on epäjohdonmukaisia ​​tilanteita, kuten kehyshyppyjä, koulutettu malli tuottaa todennäköisesti myös epäkoherentteja videoita. Lisäksi malliharjoittelun aikana esiintyvä kuvanopeus ja resoluutio vaikuttavat videon luomisen laatuun. Jos mallia on koulutettu vain pienemmän resoluution ja kuvanopeuden dataan, se ei välttämättä pysty luomaan korkearesoluutioisia ja tasaisia ​​videoita.

Miksi en voi luoda minuutin tai kahden mittaista videota päästä päähän? Yhden tai kahden minuutin päästä päähän -video tarkoittaa tuhansia kehyksiä tai jopa kahta tai kolmetuhatta datakehystä, mikä vaatii satoja tai tuhansia kertoja enemmän laskentaresursseja. Vaikka Latten spatiotemporaalista kytketyn huomion arkkitehtuuria voidaan teoriassa pidentää tällaiseen kestoon, millään laitoksella ei tällä hetkellä ole tarpeeksi laskentatehoa ja dataa tällaisen koulutuksen tukemiseksi.

TMTpost AGI: Kuka tällä hetkellä käyttää Soraa? Mitä ongelmia ratkaistaan? Mitä arvoa se tuo?

Zhuang Shaobin: C-puolella ei-ammattimaisille videotuottajille, kuten tavallisille kotikäyttäjille, videon sukupolven mallit, kuten Sora, voivat vähentää huomattavasti videon tuotannon vaikeutta. Käyttäjien tarvitsee vain kirjoittaa tekstikuvauksia luodakseen kaunista videosisältöä, mikä helpottaa videoiden luomiseen osallistumista.

B-puolella Sora voi luoda monimutkaisia ​​tai mielikuvituksellisia videomateriaaleja ammattimaisille videoeditoreille ja mainostajille. Ammattilaiset voivat hienosäätää ja optimoida mallin tarjoamien materiaalien perusteella, mikä parantaa työn tehokkuutta ja luomisen laatua.

Soraa ei käytetä vain videotuotannossa, vaan sillä on myös useita tutkimustutkimuksia useilla eri aloilla, kuten autonomisessa ajamisessa, 3D-luonnissa ja mallintamisessa sekä fysiikan tutkimuksessa. Autonomisen ajojärjestelmän on pystyttävä ennustamaan tarkasti ympäröivien kohteiden dynaamiset muutokset, ja Sora "maailman simulaattorina" voi simuloida ja ennustaa esineiden liikeradat, mikä tarjoaa tarkempaa ympäristömallinnusta autonomiselle ajojärjestelmälle.

Esimerkiksi autonomisen ajamisen alalla Teslan autonominen ajoratkaisu ja vastaavat edistyneet ajoapujärjestelmät ovat edistyneet merkittävästi. Ne voivat havaita ympäröivän ympäristön reaaliajassa, mukaan lukien ajoneuvot, jalankulkijat, esteet jne. autonomisen ajamisen ymmärtämiseen. Sora auttaa autonomisia ajojärjestelmiä tekemään päätöksiä etukäteen, jotta vältetään mahdollisesti vaaralliset tilanteet, kuten törmäykset ja perääntörmäykset. Samalla järjestelmä voi ennakoimalla esineiden liikettä myös optimoida ajoreittejä ja -nopeuksia, parantaa liikenteen tehokkuutta sekä vähentää ruuhkia ja päästöjä.

Yleisesti ottaen Sora alentaa videotuotannon kynnystä ja mahdollistaa useamman osallistumisen videoiden luomiseen. Siitä hyötyvät niin ei-ammattimaiset käyttäjät C-puolella kuin ammattivideotuottajat B-puolella.

Qi Peng: Sora on enemmän kuin "vasara", uusi työkalu, joka voi ratkaista erilaisia ​​​​ongelmia. Videon generoinnin lisäksi Sora Vincent -videomallilla voi olla rooli myös monilla aloilla, kuten autonomisessa ajamisessa ja fyysisen maailman simuloinnissa. Intuitiivisin sovellus on videoiden luominen. Käyttäjien tarvitsee vain kirjoittaa tekstikuvaus luodakseen nopeasti vaatimukset täyttävää videosisältöä, mikä parantaa videotuotannon tehokkuutta ja mukavuutta.

Usein teknologiaa ei kehitetä ratkaisemaan tiettyä ongelmaa, vaan tehokkaita ratkaisuja löydetään vahingossa tutkimusprosessin aikana. Kun tämä menetelmä on kypsä, sitä voidaan käyttää laajasti monilla aloilla useiden ongelmien ratkaisemiseen.

Tällä hetkellä Sora on vielä beta-vaiheessa, eikä se ole laajalti yleisön saatavilla. Kiinassa saattaa olla joitain sovelluksia sisäisille tai ulkoisille betaversioille, mutta määrä on suhteellisen pieni ja rajoittuu pääasiassa lyhyiden videoiden tai elokuvaleikkeiden luomiseen. Koska tämä on beta-versio, se voi olla saatavilla ilmaiseksi monissa tapauksissa. Jos lataus alkaa tulevaisuudessa, kustannukset ovat hyvin pieni osa nykyisistä videon tuotantokustannuksista, kuten muutama sata juania, mikä pienentää videotuotannon kustannuksia huomattavasti.

TMTpost AGI: Mitä haasteita tiimi kohtasi Sora-mallin kehittämisen aikana? Kuinka voittaa nämä haasteet?

Qi Peng : Tämä projekti tekee pääasiassa yhteistyötä avoimen lähdekoodin yhteisön kanssa. Pääasiallisen tutkimus- ja kehitystyön tekevät tohtori Zhuang Shaobin ja yksi tai kaksi tutkimus- ja kehitystyöntekijää. Projekti on kokonaisuudessaan jaettu neljään ryhmään, jotka vastaavat tiedonkeruusta ja merkinnöistä, mallikoulutuksesta, mallin arvioinnista, koulutuksen nopeuttamisesta ja koneen optimoinnista.

Zhuang Shaobin: Mallin koulutusprosessin aikana tiimin suurin haaste on riittämättömät laskentaresurssit. Erityisesti suuria tietoja ja monimutkaisia ​​malleja käsiteltäessä laskentaresurssien kysyntä on erittäin korkea. Rajallisten koneresurssien tehokkaammaksi hyödyntämiseksi projektitiimin algoritmiryhmä teki paljon optimointityötä.

Nämä optimoinnit sisältävät edistyneitä optimointistrategioita, kuten mallien rinnakkaisuutta ja liukuhihnan rinnakkaisuutta, sekä videomuistin optimoinnin yksittäisille malleille.

Lisäksi tiimi optimoisi myös videokentän, jotta hankkeella voi olla selkeät sovellusskenaariot ja kohdealueet, jotka vastaavat paremmin projektin todellisia sovellustarpeita.

TMTpost Media AGI: Shanghai Jiao Tong -yliopiston Chongqingin tekoälyn tutkimuslaitos ja maaseudun elvyttämistutkimuslaitos (Chongqing) julkaisivat aiemmin laajan maaseudun elvyttämismaatalouden mallin nimeltä "Zhaoyan·Zhaofeng". Miksi tämä malli kehitettiin?

Qi Peng: Ainoana kuntana, jolla on maaseutumaisemia, Chongqing tarjoaa runsaasti kohtauksia ja laajan tilan laajamittaisten maatalousmallien soveltamiseen. Laajamittaisessa maaseudun elvyttämismallissa hyödynnetään massaa verkkodataa ja Maataloustieteiden akatemian maatalousdataa. Nämä tiedot tarjoavat pohjan mallin rakentamiselle ja koulutukselle ja voivat heijastaa tarkemmin maataloustuotannon todellista tilannetta. Tällä hetkellä tätä hanketta kehitetään yhdessä valtion virastojen, maaseudun elvyttämisen (Chongqing) tutkimuslaitoksen ja muiden tahojen kanssa. Tämä yhteistyömalli auttaa yhdistämään resursseja, teknologiaa ja varoja edistämään yhdessä laajamittaisten maatalousmallien tutkimusta ja kehitystä sekä soveltamista.

Maaseudun elvyttämisestä on suunnitteilla 14 suurta mallia ja tällä hetkellä 3-4 niihin liittyvää tuotetta. Suurten mallien avulla asiantuntijatieto muuntuu suosituksi ja helposti ymmärrettäväksi tiedoksi maataloustuotannon, johtamisen ja ihmisten toimeentuloon liittyvien ongelmien ratkaisemiseksi. auttaa maatalousteollisuutta pääsemään käsiksi ja käyttämään maataloustietoa yhtä helposti kuin kaupunkilaiset, mikä auttaa kaventamaan kaupunki- ja maaseutualueiden välistä tietokuilua ja parantamaan maataloustuotannon tehokkuutta.

TMTpost AGI: Mitkä ovat tässä vaiheessa pullonkaulat suurten mallien teknologian kehittämisessä?

Qi Peng: Ensinnäkin on selvää, mitä tiimi määrittelee suureksi malliksi, joka on suuri kielimalli. Suuri kielimalli on valtavirta, ja sen ydin on tiedossa ja logiikassa. Suuren kielimallin kehittyessä sen älykkyystaso voi vähitellen nousta viisivuotiaan lapsen älykkyysosamäärästä 10-vuotiaan, kahdeksantoistavuotiaan tai jopa supermiehen tasolle. Tämä prosessi perustuu pääasiassa mallin hallintaan ja tiedon ja logiikan soveltamiseen.

Suuresta kielimallista poiketen Vincent-videomalli on toinen suuren mallin linja. Se ei sisällä monimutkaista tietoa ja logiikkaa, vaan keskittyy enemmän fyysisen maailman lakien ymmärtämiseen ja simulointiin. Vincent Video Modelingin kaltaiset mallit voivat ennakoida ja reagoida fyysisen maailman muutoksiin havaintojen ja kokemusten perusteella, mutta niiltä puuttuu korkeatasoinen looginen ymmärrys ja tiedon yhteenvetokyky.

Lisäksi on olemassa multimodaalisia malleja, joilla voidaan koodata ja käsitellä yhtenäisesti useita tietomuotoja, kuten tekstiä, kuvia, ääniä jne. Multimodaaliset mallit ovat yksi tulevaisuuden kehityssuunnista, jolla voidaan kattavammin ymmärtää ja käsitellä monimutkaista tietoa todellisessa maailmassa.

Tällä hetkellä suuret mallit ovat siirtymässä tasangolle, ja älykkyyden laadullinen harppaus näyttää vaikealta. Uskomme edelleen, että suuremmat mallit pystyvät käsittelemään monimutkaisempia ongelmia ja niillä on vahvempi oppimis- ja yleistyskyky. Kun malli pystyy saavuttamaan 99,9 % tarkkuuden, tästä suuresta mallista tulee uusi tuottavuustyökalu, joka pystyy suorittamaan erilaisia ​​tehtäviä.

Suurten mallien kehittämisessä on ongelmia, kuten riittämätön laskentateho, riittämätön tekstidata, poikkeamat tarkkuudessa ja luotettavuudessa sekä riittämätön mallin mittakaava. Tällä tavalla suuren mallin "IQ" ei ole tarpeeksi korkea, enemmän kuin viisi- tai kuusivuotiaan lapsen IQ-taso. Suuren mallin kyky käsitellä monimutkaisia ​​​​tehtäviä on rajallinen, eikä se voi saavuttaa ihmisten tasoa odottaa.

Toiseksi, suuren kielimallin arkkitehtuurin rajoituksista johtuen iso malli on vähän kuin "vapaiden taiteiden opiskelija". Isoa mallia voidaan verrata yrityksen "toimitusjohtajaan tai COO:han". Vaikka tämä "toimitusjohtaja tai COO" ei ehkä tiedä paljoakaan tekniikasta, hän voi mobilisoida erilaisia ​​huipputeknisiä komponentteja.

Samaan aikaan kotimaiset suuret valmistajat ja start-upit kohtaavat vaikeuksia suurten mallien kehittämisessä lähinnä siksi, että investointikustannukset ovat valtavat, eikä kaupallistaminen riitä tukemaan jatkuvaa laskentatehoon ja dataan panostusta.

Jos suurten mallien älykkyyttä ei voida parantaa merkittävästi lyhyessä ajassa, niin sovellusten kehittämisestä tulee kannattava vaihtoehto. Suuren mallikehityksen nykyisessä vaiheessa asiakkaiden on tutkittava ja parannettava käytännössä erilaisia ​​sovellusskenaarioita. Sovellusten kaupallistamisen avulla voidaan tuottaa tuloja suurten mallien jatkuvan kehittämisen ja optimoinnin tukemiseksi. Tämä ei ainoastaan ​​takaa hankkeen taloudellista kestävyyttä, vaan tarjoaa myös mahdollisuuden tulevaisuuden teknologisille innovaatioille.

Lisäksi suuret malliyritykset voivat tukea projektikehitystä myös rahoituksella. Rahoitus ei kuitenkaan ole helppoa. Se riippuu siitä, tunnistavatko markkinat hankkeen potentiaalin ja arvon.

TMTpost Media AGI: Markkinat ovat erittäin innostuneita suurista malleista, mutta suurten mallien soveltaminen etenee hitaasti, mikä on jäljessä markkinoiden odotuksista. Miksi suurten mallien soveltaminen etenee hitaasti?

Qi Peng: Syitä on kaksi:

Ensinnäkin nykyinen teknisten valmiuksien puute johtaa rajalliseen parannukseen, mikä vähentää innostusta ennakoiviin päivityksiin.

Toiseksi uusien teknologioiden soveltaminen vaatii uuden laitteiston ja laskentatehon tuen, mutta useat yritykset ovat huonosti valmistautuneita ja niillä ei ole riittävästi tietokonehuoneita ja älykkäitä laskentaresursseja suurten mallien käyttöönottamiseksi ja käyttämiseksi, mikä vaikeuttaa suurten mallien käyttöönottoa vertikaalisilla toimialoilla. Toinen ongelma voidaan itse asiassa ratkaista vastaavilla politiikoilla, jos yritykset voivat luottaa valtion investoimien tutkimuslaitosten tai laskentavoimakeskusten tietoturvatakuun, ne voivat aloittaa laajojen malliratkaisujen kehittämisen ennen omien älykkäiden tietokonehuoneiden rakentamista.

Suuret mallit, erityisesti ne, jotka pystyvät tuottamaan korkealaatuista tekstiä, kuvia jne., vaativat usein huomattavia laskentaresursseja toimiakseen. Esimerkiksi kun miljoona käyttäjää käyttää suurta mallia samanaikaisesti, vuotuiset laskentatehokustannukset voivat ylittää satoja miljoonia, mikä vaikeuttaa kaupallistamista. Tavallisille käyttäjille tällaiset kalliit suurmallisovellustuotteet voivat olla kohtuuhintaisia, mikä rajoittaa myös C-end-sovellusten edistämistä.

Tässä vaiheessa ratkaisuja voivat olla tehokkaampien algoritmien käyttöönotto, mallirakenteiden optimointi laskelmien määrän vähentämiseksi tai hajautettujen laskentaresurssien, kuten pilvipalvelun, hyödyntäminen kustannusten hajauttamiseen.

Joiltakin osin nykyinen älykäs suurmalli on edelleen kuin "viisivuotias lapsi". Sillä on ongelmia, kuten riittämätön "IQ", epävakaa suorituskyky ja taipumus hallusinaatioille, mikä vaikuttaa vakavasti käyttäjäkokemukseen ja luottamukseen. Näitä ongelmia ei voida hyväksyä sovellusskenaarioissa, jotka vaativat suurta tarkkuutta, kuten valtion tai taloushallinnon asiakaspalveluskenaarioissa. Jopa joillakin konsultointi- tai käyttö- ja huoltoaloilla, joilla tarkkuusvaatimukset eivät ole niin korkeat, nykyinen 80 % tai 60 % tarkkuusaste ei ole vielä saavuttanut laajan käytön kriittistä pistettä.

Agenttien suorituskyvyn ja vakauden parantaminen vaatii jatkuvaa algoritmien optimointia, koulutusdatan monimuotoisuuden ja määrän lisäämistä sekä monimutkaisempien malliarkkitehtuurien käyttöönottoa. Samalla on myös vahvistettava reaaliaikaisia ​​seuranta- ja virheenkäsittelymekanismeja suurten mallien vakauden varmistamiseksi monimutkaisissa ympäristöissä.

Kuvantunnistus on erittäin tärkeä kenttä multimodaalisten suurten mallien soveltamisessa. Esikoulutetun mallin perusteella voidaan kehittää uusia kuvantunnistusmalleja erittäin alhaisilla kustannuksilla, jotka kattavat monia pitkän pyrstön skenaarioita, ja niillä on suuri markkinapotentiaali. Vaikka kuvantunnistuksella on monia sovellusskenaarioita, nykyisissä suurissa kuvantunnistusmalleissa on edelleen heikko tarkkuus ja suhteellisen korkeat laskentatehovaatimukset.

Lisäksi, koska tekoälyn edellinen sukupolvi on ollut suhteellisen kypsä kuvan ymmärtämisessä, ihmiset eivät ole täysin hyväksyneet sitä lisäarvoa, jonka suuret mallit voivat tuottaa, mikä vaikuttaa myös sen edistämisen nopeuteen.

TMTpost AGI: Miten näet suurten vertikaalisten teollisuusmallien nykyisen teollisen innovaation. Miksi vertikaalisia teollisuustapauksia on otettu käyttöön niin vähän?

Qi Peng: Vertikaalisen teollisuuden käyttöönoton kannalta, kun otetaan esimerkkinä humanoidirobotit valmistusteollisuudessa, voi kestää viidestä kymmeneen vuotta ennen kuin humanoidirobotit ovat käytettävissä perheissä. Tämä johtuu pääasiassa siitä, että niiden yleistysmahdollisuudet ohjelmistoissa ovat edelleen rajalliset. Se ei riitä, vaan myös laitteisto tarvitsee lisätutkimusta, kehitystä ja parannusta.

Käytännöllisempi tutkimussuunta on keskittyä robottiaseiden yleistysongelmaan valmistusskenaarioissa. Vaikka robottikädet itsessään ovat erittäin kypsiä ja niitä käyttävät markkinoilla suuret kotimaiset ja ulkomaiset valmistajat, olemassa olevilta robottikäsivarsilta puuttuu riittävä yleistyskyky eivätkä ne pysty joustavasti mukautumaan erilaisiin työtehtäviin. Tämä johtaa tarpeeseen ohjelmoida uudelleen joka kerta, kun robottikättä vaaditaan suorittamaan uusi tehtävä käytännön sovelluksissa, mikä on epäkäytännöllistä, kun tehtävät vaihtuvat usein.

Avain robottikäsivarren yleistämisen ongelman ratkaisemiseen on ohjelmistojen kehittäminen, erityisesti sellaisten ohjelmistojen kehittäminen, jotka mahdollistavat robottikäsivarren käsittelemään laajempia skenaarioita. On odotettavissa, että yhden tai kahden vuoden sisällä ohjelmistojen optimoinnin ja kehityksen kautta robottikäden yleistyskyky paranee merkittävästi.

Tietysti on joitain haasteita robottikäden yleistyskyvyn tavoitteen saavuttamiseksi, nimittäin tiedon puute. Jotta voidaan kouluttaa robottikättä, joka pystyy käsittelemään erilaisia ​​skenaarioita, tarvitaan suuri määrä korkealaatuista dataa tukemaan algoritmien oppimista ja optimointia.

Itse asiassa suuria malleja voidaan käyttää älykkäänä agenttina valmistusteollisuudessa ja ne voivat kutsua erilaisia ​​ohjelmistoja kokonaisuutena. Tämä tarkoittaa, että valmistavan teollisuuden monimutkaisissa järjestelmissä erilaiset ohjelmistot, jotka alun perin vaativat manuaalista käyttöä tai ohjelmointiyhteyttä, voidaan nyt teoreettisesti automatisoida ja integroida suurten mallien kautta.

Käyttäjien tarvitsee vain olla vuorovaikutuksessa suuren mallin kanssa kielen tai ideoiden kautta, ja suuri malli voi automaattisesti suorittaa vastaavia ohjelmia ja suorittaa erilaisia ​​tehtäviä. Koska eri tuotantoyrityksillä on kuitenkin erilaiset tuotantoympäristöt, järjestelmät ja API:t, suurten mallien mukautuvuus eri skenaarioihin on muodostunut suureksi haasteeksi. Jopa suuri malli, joka on viritetty hyvin yhteen kohtaukseen, ei välttämättä toimi kunnolla toisessa ympäristössä. Siksi yrityskehittäjien on hienosäädettävä tiettyjä skenaarioita parantaakseen suurten mallien suorituskykyä ja tarkkuutta.

Tämä rajoitus vaikuttaa suoraan suurten mallien laajaan käyttöön ja syvälliseen kehittämiseen valmistuksessa. Koska valmistukseen liittyy usein erittäin monimutkaisia ​​ja hienostuneita operaatioita, jotka vaativat erittäin tarkkoja laskelmia ja ohjausta. Jos suuri malli ei kestä näitä tehtäviä, se ei saavuta potentiaaliaan valmistuksessa.

Itse suurten mallien kapasiteettirajoitusten lisäksi myös järjestelmien yhteensopivuusongelmat ovat tärkeä tekijä, joka rajoittaa suurten mallien käyttöä valmistuksessa. Eri yritykset tai tuotantoyksiköt voivat käyttää täysin erilaisia ​​järjestelmiä, mukaan lukien erilaisia ​​ohjelmistoja, laitteistoja ja API:ita. Tämä tekee vaikeaksi soveltaa suoraan yhteen skenaarioon viritettyä suurta mallia toiseen skenaarioon, koska näiden kahden skenaarion järjestelmäympäristöt voivat olla täysin erilaisia. Tämä järjestelmien välinen vaihtelu lisää suurten mallien soveltamisen monimutkaisuutta ja kustannuksia valmistuksessa.

Itse asiassa ratkaisu on olemassa. Vertikaalisille toimialoille, kuten valmistus tai rahoitus ja vähittäiskauppa, voidaan määrittää rajapinnat standardoiduille suurille malleille. Nämä rajapinnat selventävät suuren mallin erityisiä ominaisuuksia, jotta kaikki järjestelmät voivat kutsua suuren mallin toimintoja näiden rajapintojen kautta. Tämän etuna on, että riippumatta siitä, miten järjestelmäympäristö muuttuu, niin kauan kuin ne noudattavat näitä standardoituja liitäntämäärityksiä, ne voidaan yhdistää saumattomasti suuriin malleihin.

Siksi standardisoituja käyttöliittymiä määrittämällä yrityskehittäjät voivat merkittävästi vähentää vaikeuksia sovittaa suuria malleja eri järjestelmiin, jolloin suuret mallit voivat mukautua eri tuotantoympäristöihin nopeammin. Standardoidut rajapinnat auttavat varmistamaan, että suuret mallit voivat toimia vakaasti eri järjestelmissä ja vähentävät järjestelmäeroista johtuvia yhteensopivuusongelmia.

Yleensä suuria malleja käytetään laajasti useilla vertikaalisilla toimialoilla, mutta varsinaisia ​​toteutustapauksia on suhteellisen vähän. Syitä on kaksi: Ensinnäkin riittämättömät matemaattiset ja tekniset valmiudet vaikeuttavat suurten mallien riittävän tarkkuuden ja vakauden saavuttamista käytännön sovelluksissa. Toiseksi suuri malli itsessään on osa koneoppimiskategoriaa, ja sen tilastollisiin menetelmiin perustuva luonne määrää, ettei se voi olla 100 % oikea.

Itse asiassa ihmisaivojen rakenne ei ole 100 % tarkka, mutta ihmisen harkintakyky on usein riittävän tarkka vastaamaan useimpien todellisten skenaarioiden tarpeisiin. Sitä vastoin suuren mallin tarkkuus saattaa jäädä koulutuksen jälkeenkin noin 95 %:iin, mikä ei välttämättä riitä joissakin erittäin korkeaa tarkkuutta vaativissa skenaarioissa. Lisäksi suurten mallien matemaattiset ominaisuudet ovat suhteellisen heikkoja, mikä myös rajoittaa niiden käyttöä tietyillä aloilla.

Jos haluat voittaa nämä rajoitukset, sinun on ymmärrettävä, kuinka tärkeää on tukea suuria malleja. Tarjoamalla tarvittavat tukipalvelut ja työkalut suurille malleille, se voi korvata matemaattisten ja teknisten valmiuksiensa puutteen, jotta se voi mukautua paremmin todellisten sovellusskenaarioiden tarpeisiin. Tällaisia ​​tukipalveluita voivat olla tarkempia tietojoukkoja, tehokkaampia algoritmeja, vakaampia laitteistoalustoja jne.

TMTpost AGI: Miksi suuret mallit aiheuttavat hallusinaatioita?

Qi Peng: Joskus se johtuu siitä, että itse alkuperäiset tiedot puuttuvat tai niissä on ongelmia, suuri kielimalli ei voi oppia oikeaa tietoa koulutusprosessin aikana, eikä siksi voi tehdä oikeita johtopäätöksiä. Tämä virhe ei johdu itse suuren kielimallin virheistä, vaan syöttötietojen epätarkkuuksista.

Jos suurta mallia harjoitellaan hypoteettisessa ympäristössä, jossa kaikki tieto viittaa vääriin johtopäätöksiin, niin suuri malli tekee myös vääriä päätöksiä tämän väärän tiedon perusteella. Tämä korostaa tiedon ja ympäristön tärkeää vaikutusta agenttien ja suurten mallien suorituskykyyn.

Joskus suuret mallit voivat tuottaa vastauksia, jotka näyttävät loogisilta ja harkitsevilta, mutta eivät ole todellisia tai tarkkoja. Tämä muistuttaa tapaa, jolla 5-vuotiaat usein kuvailevat vääriä muistoja luottavaisin mielin.

Aikuiset myös kokevat usein hallusinaatioita tai muistivirheitä käsitellessään tietoa ja muistia. Esimerkiksi oikeudenkäyntipöytäkirjojen ja tapausanalyysin aikana erittäin vakavissa ja tärkeissä tilanteissa osapuolilla voi olla vääriä muistoja tai hallusinaatioita erilaisista paineista, harhaanjohtavista tiedoista jne.

TMTpost AGI: Miten suuren mallimarkkinaympäristön erot kotimaassa ja ulkomailla näkyvät?

Qi Peng: Tällä hetkellä ulkomailla on edelleen vahva luottamus teknologian parantamiseen, eivätkä ne ole täysin kääntyneet sovelluskehitykseen. Tämä voi johtua siitä, että ulkomaiset markkinat ovat suhteellisen kypsät ja vakaat, jolloin yrityksillä on enemmän resursseja ja tilaa keskittyä teknologian tutkimukseen ja kehitykseen sekä innovaatioihin. Sitä vastoin kotimarkkinoilla on edessään kovempi kilpailuympäristö, ja useimmat suuret mallipohjaiset tuotekehitysyritykset ovat kääntyneet sovellusten puoleen suuressa mittakaavassa.

Kilpailu kotimarkkinoilla ei heijastu vain yritysten lukumäärään, vaan myös hintasotiin. Koska useat yritykset tarjoavat samanlaisia ​​palveluita samaan aikaan, suurten mallien hinta laskee nopeasti, mikä vaikeuttaa yritysten kustannusten kattamista palveluiden kautta. Ulkomailla ChatGPT:n edustamat yritykset voivat edelleen hankkia tuloja ja käyttää niitä jatkotutkimukseen ja -kehitykseen sekä innovaatioihin johtavan teknologia- ja markkinatuntemuksensa ansiosta.

Kotimarkkinoilla yritysten voi joutua kovan hintasodan ja suhteellisen heikon maksuhalukkuuden vuoksi keskittymään enemmän uusien sovellusten kehittämiseen hakeakseen kaupallisia läpimurtoja. Vaikka tällä strategialla voidaan jossain määrin lieventää yritysten taloudellisia paineita, se voi myös johtaa riittämättömiin investointeihin teknologiseen tutkimukseen ja kehitykseen, mikä vaikuttaa niiden pitkän aikavälin kilpailukykyyn.

TMTpost AGI: Mitkä ovat AGI:n tulevaisuuden kehityssuunnat?

Qi Peng: Uskon, että ihmisyhteiskunta on kriittisessä vaiheessa, joka johtaa AGI:hen. Vaikka teollisuus uskoo tällä hetkellä, että tietyt tekniikat tai mallit eivät ole oikealla tiellä AGI:lle, he uskovat, että nämä tekniikat tai mallit eivät kuulu AGI:lle.Mutta jonain päivänä tulevaisuudessa, kun katsomme taaksepäin tähän historian ajanjaksoon, saatamme huomata, että olemme tärkeässä historiallisessa käännekohdassa.

Otetaan esimerkkinä Teslan autonominen ajotekniikka Viisi vuotta sitten ihmiset saattoivat ajatella, että L4-tason autonomisen ajotekniikan saavuttaminen kestää kymmenen tai kaksikymmentä vuotta, mutta nyt tämä tekniikka on edistynyt merkittävästi. Tämä hurja edistys antaa alan uskoa, että todellinen AGI voi toteutua vahingossa.

Zhuang Shaobin: Mikä on AGI:n ihanteellinen tila? AGI:lla ei pitäisi olla vain korkeatasoista ajattelukykyä, vaan mikä tärkeintä, sen tulee olla sovellettavissa tosielämässä, erityisesti teollisuudessa.

Tällä hetkellä ihmiset ovat nähneet monia robottien ja tekoälyteknologian sovelluksia fyysisissä laitteissa, mikä osoittaa, että ihmiset tekevät lujasti töitä vapauttaakseen tekoälyteknologian tietokoneista ja muuttaakseen sen konkreettisiksi ja aktiivisiksi kokonaisuuksiksi. Tämä harppaus on erittäin tärkeä tekoälyteknologialle. Vain käytännön sovelluksissa tekoäly voi luoda enemmän arvoa.

TMTpost AGI: Onko DiT-reitin lisäksi muita mahdollisia reittejä tai strategioita AGI:n kehittämiseksi? Mikä on AGI:n käyttöönottopolku?

Qi Peng: AGI:n kehitysprosessissa ihmisillä on oltava monipuolinen ja osallistava asenne. Jos AGI:tä verrataan eri arvosanoja saaneiden oppilaiden kotitehtäviin luokassa, vaikka oppilaat ovat eri kykyjä, he voivat kaikki suorittaa joitain perusasioita. Vastaavasti, vaikka suorituskyvyssä on eroja arkkitehtuurien välillä, ne kaikki voivat suorittaa joitain perustehtäviä, mutta heillä on erilaiset kyvyt vaikeammissa tehtävissä.

Erityisesti suurten tietomäärien ja laskentatehon tuella eri arkkitehtuurit voivat parantaa perusominaisuuksiaan lisäämällä parametrien määrää, jotta ne kaikki voivat toimia tietyllä tasolla.Samaan aikaan suurien mallien alalla on myös uusia trendejä, kuten lineaariset huomiomekanismit ja muut optimointimenetelmät. Nämä menetelmät on suunniteltu vähentämään perinteisen Transformer-mallin laskentamäärää ja parantamaan tehokkuutta.

Mitä tulee AGI:n lopulliseen toteutuspolkuun, ei itse asiassa ole kiinteää reittiä. Useilla nykyisillä malleilla ja tekniikoilla on etunsa ja rajoituksensa. AGI:n kehitysprosessissa vaaditaan jatkuvaa useiden arkkitehtuurien ja teknologioiden tutkimista ja integrointia. Erilaiset arkkitehtuurit ja teknologiat tarjoavat AGI:lle tärkeitä referenssejä ja referenssejä tässä prosessissa edistäen sen jatkuvaa kehitystä. Samalla on kiinnitettävä huomiota mallin käytännöllisyyteen ja itsekorjausominaisuuksiin.

TMTpost AGI: Miten löytää tasapaino tutkimusinnovoinnin ja kaupallistamisen välillä kotimaisella suurella mallikentällä?

Qi Peng: Mitä tulee innovatiiviseen tutkimukseen, rajallisten varojen vuoksi instituutin on selvennettävä tavoitteita, joihin se voi pyrkiä, sen sijaan, että ryhdyttäisiin sokeasti hankkeisiin, jotka vaativat paljon resursseja, kuten suuria kielimalleja, jotka voidaan toteuttaa vain suuret yritykset, kuten Baidu.

Toiseksi instituuttiryhmän on valittava tutkimushankkeet, jotka voidaan toteuttaa tietyin ponnisteluin ja joilla on käytännön arvoa. Esimerkiksi ryhmän kehittämä Latte spatiotemporal coupling -huomioarkkitehtuuriin perustuva Sora-tyyppinen malli ottaa esimerkkinä 16 sekunnin teräväpiirtovideon generoinnin. Tämä on tavoite, johon instituutti voi pyrkiä olemassa olevilla resursseilla. Samalla instituutin on valittava myös joitain vähemmän resursseja vaativia tutkimussuuntia, kuten mallien optimointi tai tukisovellukset.

Kaupallistamisen kannalta instituutin tulisi keskittyä AIGC:n toteuttamiseen, erityisesti "viimeisen mailin" -kysymykseen. Tämä tarkoittaa, että tutkimuslaitosten on keskityttävä siihen, miten tutkimustulokset muunnetaan todellisiksi tuotteiksi tai palveluiksi vastatakseen markkinoiden kysyntään ja saavuttaakseen kaupallistamisen.

Vaikka suurten mallien älykkyysosamäärä voi edelleen nousta viidestä kymmeneen kahdeksaantoista vuoteen ja saavuttaa jopa huippuasiantuntijoiden tason, tällainen järjestelmä tarvitsee aina tukitiloja tai työkaluja, jotka tukevat sen toimintaa ja käyttöä. Näiden tukilaitosten T&K-kustannukset voivat olla suhteellisen alhaiset, mutta niillä on keskeinen rooli suurten mallien käytännön soveltamisen ja yhteiskunnallisen arvon edistämisessä.

Siksi tekoälyn alan kotimaisten tutkimuslaitosten ryhmien tulisi keskittyä pääasiassa näiden tukipalvelujen tutkimukseen ja kehittämiseen suurten mallien toiminnan ja toteutuksen tukemiseksi.

(Tämä artikkeli julkaistiin ensimmäisen kerran Titanium Media App -sovelluksessa, kirjoittaja|Dou Yueyi, Lin Zhijia, toimittaja|Lin Zhijia)