robin li paljastaa illuusion suurten mallien "juoksutuloksista": lista ei edusta kaikkia vahvuuksia, ja mallien välinen kuilu kasvaa tulevaisuudessa

robin li paljastaa illuusion suurten mallien "juoksutuloksista": lista ei edusta kaikkia vahvuuksia, ja mallien välinen kuilu kasvaa tulevaisuudessa.

2024-09-12

aina kun suuresta mallista julkaistaan uusi versio, teollisuus haluaa aina lainata kolmannen osapuolen luettelotietoja, "pisteyttää" omalla suurella mallillaan ja gpt-4:llä väittäen, että se on ylittänyt tietyt indikaattorit todistaa teknisen vahvuutensa suurissa malleissa.

mutta äskettäisessä keskustelussa baidu-johtajan robin li ja sisäisten työntekijöiden välillä, hän lävisti "ikkunapaperin", joka estää vertailua suurella malliteollisuudella. "joka kerta kun uusi malli julkaistaan, sitä on verrattava gpt-4o:han. sanotaan, että pisteytykseni on melkein sama kuin se, ja jopa ylittää sen joissakin yksittäisissä kohteissa, mutta tämä ei tarkoita, etteikö eroa olisi. edistyneimmillä malleilla."

hän selitti edelleen, että mallien väliset erot ovat moniulotteisia. yksi ulottuvuus on kykynäkökohta, olipa se sitten ero peruskyvyissä, kuten ymmärryskyky, sukupolvikyky, looginen päättelykyky tai muistikyky. toinen ulottuvuus on kustannusnäkökohta korkea ja päättelynopeus on hidas , itse asiassa se on edelleen huonompi kuin kehittyneet mallit.

"siinä on myös testisarjan ylisovitus. jokainen malli, joka haluaa todistaa kykynsä, menee rankingiin. rankingissa hänen on arvattava, mitä muut testaavat ja millä tekniikoilla saan sen. oikein, joten luettelosta tai testisarjasta päätellen ominaisuudet ovat mielestäsi hyvin lähellä, mutta todellisissa sovelluksissa on edelleen selkeä aukko", robin li sanoi.

suuri malliharjoittaja kertoi toimittajille, että robin li:n mainitsema testisarjan ylisovitus (yli-sovitus) viittaa lähinnä siihen, että mallin koulutusprosessin aikana malli oppii harjoitustiedot liian huolellisesti, joten malli ei ei suoriudu hyvin harjoitustiedoista suorituskyky on erittäin hyvä, mutta suorituskyky on huono ennennäkemättömien testitietojen perusteella. tämä tarkoittaa yleensä sitä, että malli on niin monimutkainen, että se pystyy "muistamaan" harjoitustiedon kohinan ja yksityiskohdat, mutta nämä yksityiskohdat ja kohina eivät ole yleisiä, joten malli ei yleisty hyvin uuteen dataan.

yllämainitut uskovat, että ranking- ja tulosten laskemisessa on rajoituksia esimerkiksi arviointitietojoukon avoimuuden vuoksi mallia voidaan kouluttaa kohdistetusti parantamaan sijoitusta, jolloin syntyy ilmiö ". swiping the ranking". se ei kuitenkaan ole täysin merkityksetöntä. ranking on edelleen suhteellisen se tarjoaa kvantitatiivisen arviointistandardin, joka auttaa ihmisiä ymmärtämään nopeasti erilaisten suurten mallien suorituskykyä, kehottaa kaikkia jatkuvasti optimoimaan suurten mallien teknistä tasoa kilpailun kautta, ja sillä on myös tietty rooli julkisuudessa ja myynninedistämisessä.

robin li:n näkemyksen mukaan "osa itsemediahypestä yhdessä julkisuuden motivaation kanssa jokaisen uuden mallin julkaisun yhteydessä antaa kaikille vaikutelman, että mallien välinen kykyero on suhteellisen pieni. itse asiassa näin ei ole. " robin li sanoi, että todellisessa käytössä baidu ei salli teknisen henkilöstön tehdä sijoituksia. suurten mallien kykyjen todellinen mittaus tulisi olla tietyissä sovellusskenaarioissa, jotta voidaan nähdä, pystyvätkö ne vastaamaan käyttäjien tarpeisiin ja tuomaan lisäarvoa.

mitä tulee "12 kuukautta eteenpäin tai 18 kuukautta jäljessä", joka mainitaan usein suuressa malliteollisuudessa, se ei hänen mielestään ole niin tärkeää. koska jokainen yritys on täysin kilpaillussa markkinaympäristössä, kilpailijoita on monia riippumatta siitä, mihin suuntaan se ottaa. "jos voit aina taata, että olet 12-18 kuukautta edellä kilpailijoitasi, olet voittamaton. älä ajattele, että 12-18 kuukautta on lyhyt aika. vaikka voit taata, että olet aina voitat 6 kuukautta kilpailijoitasi edellä markkinaosuutesi voi olla 70 %, kun taas vastustajallasi voi olla vain 20 % tai jopa 10 %.

hän arvioi, että suurten mallien välinen kuilu voi kasvaa tulevaisuudessa. koska suurten mallien katto on erittäin korkea, se on vielä kaukana ihanteellisesta tilanteesta. siksi mallia on jatkuvasti iteroitava, päivitettävä ja päivitettävä nopeasti, jotta siihen voidaan sijoittaa jatkuvasti useita vuosia tai yli kymmenen vuotta vastaamaan jatkuvasti käyttäjien tarpeisiin, vähentämään kustannuksia ja lisäämään tehokkuutta.

sen lisäksi, että robin li keskusteli siitä, onko suurissa malleissa kilpailun esteitä, robin li mainitsi vaihdon aikana, että suuriin malleihin liittyy melko paljon väärinkäsityksiä, mukaan lukien avoimen lähdekoodin ja suljetun lähdekoodin mallien tehokkuus ja tekoäly. agentti.

robin li on vankkumaton suljetun lähdekoodin suurten mallien kannattaja "ennen suurten mallien aikakautta kaikki olivat tottuneet avoimeen lähdekoodiin, mikä tarkoitti ilmaista ja halpaa." linux on käytössä se on ilmainen. mutta nämä eivät pidä paikkaansa suurten mallien aikakaudella, ja avoimen lähdekoodin mallit eivät tarjoa laskentatehoa.

"avoimen lähdekoodin malli ei ole tehokas tehokkuuden kannalta, hän sanoi: "ollakseni tarkka, suljetun lähdekoodin mallia pitäisi kutsua liiketoimintamalliksi. sen avulla lukemattomat käyttäjät voivat jakaa t&k-kustannukset sekä käytettävät koneresurssit ja gpu:t." perustelut gpu:n käyttötehokkuus on korkein.

robin li analysoi, että sellaisilla aloilla kuin opetus ja tieteellinen tutkimus, avoimen lähdekoodin malli on arvokas, mutta kaupallisella alalla, kun pyrkimys tehokkuuteen, vaikuttavuuteen ja alhaisimpaan hintaan, avoimen lähdekoodin mallilla ei ole etuja.

hän ilmaisi myös näkemyksensä suurten mallien sovelluskehityksestä. ensimmäinen on copilot, joka auttaa ihmisiä, seuraava on agentin älykkyys, jolla on tietty autonomia ja joka voi käyttää työkaluja itsenäisesti, reflektoida ja kehittyä. jos tämä automaatiotaso kehittyy edelleen, siitä tulee tekoälytyöntekijä, joka voi suorittaa kaikki työn osa-alueet itsenäisesti.

tällä hetkellä älykkäät agentit ovat herättäneet yhä enemmän huomiota suurten malliyritysten ja asiakkaiden keskuudessa. robin li uskoo, että vaikka monet ihmiset suhtautuvat tähän kehityssuuntaan optimistisesti, älykkäät agentit eivät ole yksimielisiä.

"älykkäiden agenttien kynnys on todella matala." hän sanoi, että monet ihmiset eivät osaa muuttaa suuria malleja sovelluksiksi, mutta älykkäät agentit ovat erittäin suora, tehokas ja yksinkertainen tapa agentit mallien huipulla.

(tämä artikkeli on peräisin china business newsista)

raportti/palaute

uutiset

robin li paljastaa illuusion suurten mallien "juoksutuloksista": lista ei edusta kaikkia vahvuuksia, ja mallien välinen kuilu kasvaa tulevaisuudessa.

johdanto

yhteystietoni