Pienemmän ja tehokkaamman GPT-4o minin takana tekoälymallien tulevaisuus ei ole enää suurempi ja parempi

Pienemmän ja tehokkaamman GPT-4o minin takana tekoälymallien tulevaisuus ei ole enää niin iso on parempi

2024-07-27

viime viikko OpenAI Päästä iso liike myöhään illalla,GPT-4o Mini potkaisi GPT-3.5 Turbon eläkkeelle ja jopa ohitti GPT-4:n suurella malliareenalla LMSYS.

Tällä viikolla Meta julkaistiin Suurille malleille, jos ensimmäisen ešelonin 405B-kokoa vielä odotetaan, niin uusien versioiden koot 8B ja 70B tuovat lisää yllätyksiä.

Ja tämä ei ehkä ole pienen mallikilpailun loppu, vaan todennäköisemmin uusi lähtökohta.

Ei se tarkoita, että suuret mallit olisivat kohtuuhintaisia, mutta pienet mallit ovat kustannustehokkaampia

Tekoälypiirien laajassa maailmassa pienillä malleilla on aina ollut omat legendansa.

Ulkopuolelta katsottuna viime vuoden menestysmalli Mistral 7B ylistettiin "parhaaksi 7B-malliksi" heti julkaisun jälkeen .

Tänä vuonna Microsoft avasi myös tehokkaimman pienparametrin suuren mallin phi-3-mini. Vaikka parametrien määrä on vain 3,8B, suorituskyvyn arviointitulokset ylittävät huomattavasti saman parametriasteikkotason ja ovat verrattavissa suurempiin malleihin, kuten GPT-. 3.5 ja Claude-3 Sonnetti.

Sisältä katsottuna Wall Intelligence julkaisi helmikuun alussa MiniCPM-mallin, jossa on vain 2B-parametreja. Se käyttää pienempää kokoa paremman suorituskyvyn saavuttamiseksi. Pieni teräs". ase".

Ei kauan sitten, MiniCPM-Llama3-V2.5, jonka parametrikoko on vain 8B, ohitti myös suuremmat mallit, kuten GPT-4V ja Gemini Pro, monimuotoisen suorituskyvyn ja OCR-ominaisuuksien suhteen Stanfordin yliopiston AI-tiimi.

Viime viikkoon asti myöhään illalla pommittanut OpenAI lanseerasi "tehokkaimmaksi ja kustannustehokkaimmaksi pienparametrimalliksi" kuvaillun GPT-4o minin, joka toi kaikkien huomion takaisin pieneen malliin.

Siitä lähtien kun OpenAI veti maailman luovan tekoälyn mielikuvitukseen pitkistä konteksteista, rullaaviin parametreihin, agentteihin ja nyt hintasotiin, kehitys kotimaassa ja ulkomailla on aina pyörinyt yhden logiikan ympärillä - pysyä alalla siirtymällä kaupallistamiseen. Korttipöydällä.

Siksi yleisessä mielipidekentässä silmiinpistävää on se, että hintoja leikkaanut OpenAI näyttää olevan menossa hintasotaan.

Monilla ihmisillä ei ehkä ole selkeää käsitystä GPT-4o minin hinnasta. GPT-4o mini 1 miljoonaa tuloa kohdenmerkki Hinta on 15 senttiä, ja miljoonan tokenin hinta on 60 senttiä, mikä on yli 60 % halvempi kuin GPT-3.5 Turbo.

Toisin sanoen GPT-4o mini tuottaa 2500-sivuisen kirjan vain 60 sentillä.

OpenAI:n toimitusjohtaja Sam Altman valitti myös X:stä, että verrattuna GPT-4o miniin, kaksi vuotta sitten tehokkaimmalla mallilla ei vain ollut valtava suorituskykyvaje, vaan sen käyttökustannukset olivat myös 100 kertaa korkeammat kuin nyt.

Vaikka suurten mallien hintasota käy yhä ankarammaksi, jotkin tehokkaat ja taloudelliset avoimen lähdekoodin pienet mallit herättävät todennäköisemmin markkinoiden huomiota. Kyse ei kuitenkaan ole siitä, että suuria malleja ei voisi käyttää, vaan pienet mallit ovat kustannustehokkaampia .

Toisaalta, kun GPU:t ympäri maailmaa ovat loppuunmyytyjä tai jopa loppuneet varastosta, pienet avoimen lähdekoodin mallit, joilla on alhaisemmat koulutus- ja käyttöönottokustannukset, riittävät vähitellen saamaan yliotteen.

Esimerkiksi Mianbi Intelligencen lanseeraama MiniCPM voi saavuttaa päättelykustannusten jyrkän laskun pienemmillä parametreilla ja jopa saavuttaa CPU-päätelmän. Se vaatii vain yhden koneen jatkuvaan parametrien koulutukseen ja näytönohjaimen parametrien hienosäätöön ovat myös jatkuvat parannukset.

Jos olet kypsä kehittäjä, voit jopa kouluttaa vertikaalisen mallin juridisella alalla rakentamalla itse pienen mallin, jolloin päättelykustannukset voivat olla vain tuhannesosa suuren mallin hienosäädöstä.

Joidenkin terminaalipuolen "pienten mallien" sovellusten käyttöönotto on antanut monille valmistajille mahdollisuuden nähdä kannattavuuden kynnyksellä. Esimerkiksi Facewall Intelligence auttoi Shenzhen Intermediate People's Courtia käynnistämään tekoälyavusteisen kokeilujärjestelmän, joka osoitti teknologian arvon markkinoille.

Tietysti on tarkempaa sanoa, että muutos, jota alamme nähdä, ei ole siirtymistä suurista malleista pieniin, vaan siirtyminen yhdestä mallikategoriasta mallivalikoimaan, jolloin oikean mallin valinta riippuu organisaation erityistarpeet, tehtävien monimutkaisuus ja käytettävissä olevat resurssit.

Pienet mallit sen sijaan ovat helpompia ottaa käyttöön ja integroida mobiililaitteisiin, sulautettuihin järjestelmiin tai vähän virtaa kuluttaviin ympäristöihin.

Pienen mallin parametriasteikko on suhteellisen pieni Suureen malliin verrattuna sen laskentaresurssien (kuten tekoälyn laskentatehon, muistin jne.) tarve on pienempi, ja se voi toimia sujuvammin päätelaitteiden rajallisilla laitteilla. resursseja. Lisäksi päätylaitteiden vaatimukset ovat yleensä äärimmäisempiä energiankulutuksen, lämmöntuotannon ja muiden ongelmien suhteen. Erityisesti suunnitellut pienet mallit mukautuvat paremmin päätylaitteiden rajoituksiin.

Honorin toimitusjohtaja Zhao Ming sanoi, että asiakaspuolen tekoälyn laskentateho-ongelmien vuoksi parametrit voivat olla välillä 1B ja 10B ja suuren verkkomallinpilvilaskentaKyky voi olla 10-100 miljardia, tai jopa suurempi Tämä kyky on kuilu näiden kahden välillä.

Puhelin on hyvin rajoitetussa tilassa, eikö niin? Se tukee 7 miljardia rajoitetussa akussa, rajallisessa lämmönhajoamisessa ja rajoitetussa säilytysympäristössä.

Olemme paljastaneet myös Applen älypuhelimien toiminnasta vastaavat kulissien takana olevat sankarit, joiden joukossa hienosäädetty 3B-malli on omistettu yhteenvetoon ja kiillotukseen Gemma-7B ja sopii käytettäväksi matkapuhelinpäätelaitteilla.

Joten näemme, että entinen OpenAI-guru Andrej Karpathy teki äskettäin tuomion, että mallikoon kilpailu on "käänteistä involuutiota", joka ei kasva ja kasvaa, vaan kuka on pienempi ja joustavampi.

Miksi pienet mallit voivat voittaa suuret pienillä?

Andrej Karpathyn ennustus ei ole perusteeton.

Tällä datakeskeisellä aikakaudella malleista tulee nopeasti suurempia ja monimutkaisempia Suurin osa erittäin suurista malleista (kuten GPT-4), jotka on koulutettu massiiviseen dataan, käytetään itse asiassa muistamaan suuri määrä merkityksettömiä yksityiskohtia, toisin sanoen muistamaan tiedot. ulkoa.

Hienosäädetty malli voi kuitenkin jopa "voittaa suuret pienellä" tietyissä tehtävissä, ja sen käytettävyys on verrattavissa moniin "supersuuriin malleihin".

Hugging Facen toimitusjohtaja Clem Delangue on myös ehdottanut, että jopa 99 % käyttötapauksista voidaan ratkaista pienten mallien avulla, ja ennusti, että vuosi 2024 on pienten kielimallien vuosi.

Ennen kuin tutkimme syitä, meidän on ensin popularisoitava tieteellistä tietoa.

Vuonna 2020 OpenAI ehdotti paperissa kuuluisaa lakia: Skaalauslaki, mikä tarkoittaa, että mallin koon kasvaessa myös sen suorituskyky paranee. GPT-4:n kaltaisten mallien käyttöönoton myötä skaalauslain edut ovat vähitellen tulleet esiin.

Tekoälyn alan tutkijat ja insinöörit uskovat vakaasti, että lisäämällä mallin parametrien määrää mallin oppimiskykyä ja yleistyskykyä voidaan edelleen parantaa. Tällä tavalla olemme todistaneet mallin mittakaavan hyppyä miljardeista parametreista satoihin miljardeihin ja jopa kiipeävän kohti malleja, joissa on biljoonia parametreja.

Tekoälymaailmassa mallin koko ei ole ainoa kriteeri sen älykkyyden mittaamisessa.

Päinvastoin, hyvin suunniteltu pieni malli optimoimalla algoritmin, parantamalla tietojen laatua ja ottamalla käyttöön kehittynyttä pakkaustekniikkaa voi usein näyttää suorituskyvyn, joka on verrattavissa tai jopa parempi kuin suuri malli tietyissä tehtävissä.

Tämä strategia käyttää pientä suurempien tulosten saavuttamiseksi on tulossa uudeksi trendiksi tekoälyn alalla.Niistä tiedon laadun parantaminen on yksi tapa pienille malleille voittaa suuria.

Satish Jayanthi, teknologiajohtaja ja Coalescen perustaja, kuvaili kerran datan roolia malleissa:

Jos se olisi ollut 1600-luvulla LLM , ja kysyimme ChatGPT:ltä, oliko maa pyöreä vai litteä, ja se vastasi, että maa on litteä, koska toimittamamme tiedot vakuuttivat sen, että näin oli. Tiedot, jotka toimitamme LLM:lle ja kuinka me niitä koulutamme, vaikuttavat suoraan sen tuottoon.

Laadukkaiden tulosten saamiseksi suuria kielimalleja on koulutettava korkealaatuiseen, kohdistettuun dataan tietyille aiheille ja aloille. Aivan kuten opiskelijat tarvitsevat laadukkaita oppikirjoja oppiakseen, myös LLM:t tarvitsevat laadukkaita tietolähteitä.

Luopuessaan perinteisestä väkivaltaisesta estetiikasta tehdä kovasti töitä ihmeiden saavuttamiseksi, Liu Zhiyuan, pysyvä apulaisprofessori Tsinghuan yliopiston tietojenkäsittelytieteen laitoksella ja seinille suunnatun älykkyyden johtava tutkija, ehdotti äskettäin seinää päin olevaa lakia suuren maailman aikakaudella. mallit eli mallin tietotiheys jatkaa kasvuaan kaksinkertaistuen keskimäärin kahdeksan kuukauden välein.

Niistä tietotiheys = mallin kyky/mallin parametrit, jotka ovat mukana laskennassa.

Liu Zhiyuan selitti elävästi, että jos sinulle annetaan 100 älykkyysosamäärää koskevaa kysymystä, tuloksesi ei riipu vain siitä, kuinka moneen kysymykseen vastaat oikein, vaan myös siitä, kuinka monta hermosolua käytät näiden kysymysten täyttämiseen. Mitä enemmän tehtäviä teet vähemmillä neuroneilla, sitä korkeampi älykkyysosamääräsi on.

Tämä on juuri se ydinajatus, jonka tietotiheys välittää:

Siinä on kaksi elementtiä. Yksi elementti on tämän mallin kyky. Toinen elementti on tähän kykyyn tarvittavien neuronien lukumäärä tai vastaava laskentatehonkulutus.

Verrattuna OpenAI:n vuonna 2020 julkaisemaan 175 miljardin parametriin GPT-3, se julkaisi vuonna 2024 MiniCPM-2.4B:n, jolla oli sama suorituskyky, mutta vain 2,4 miljardia parametria kuin GPT-3, mikä lisäsi tietotiheyttä noin 86-kertaiseksi.

Toronton yliopiston tutkimus osoittaa myös, että kaikki tiedot eivät ole välttämättömiä, sillä suurista tietojoukoista voidaan tunnistaa korkealaatuisia osajoukkoja, jotka on helpompi käsitellä ja säilyttää kaikki tiedot ja monimuotoisuus alkuperäisessä tietojoukossa.

Vaikka jopa 95 % opetustiedoista poistetaan, mallin ennakoivaan suorituskykyyn tietyssä jakaumassa ei ehkä ole merkittävää vaikutusta.

Viimeisin esimerkki on epäilemättä Meta Llama 3.1 iso malli.

Kun Meta koulutti Llama 3:ta, se syötti 15T tokeneita harjoitusdataa, mutta Llama2:n ja Llama3:n koulutuksen jälkeisestä työstä vastaava Meta AI -tutkija Thomas Scialom sanoi: Internetissä oleva teksti on täynnä turhaa tietoa, ja koulutus perustuu siihen. tämä tieto on laskentaresurssien tuhlausta.

Llama 3:lla ei ollut ihmisen kirjoittamia vastauksia koulutuksessaan... se vain hyödynsi Llama 2:n puhtaasti synteettisiä tietoja.

Lisäksi tiedon tislaus on myös yksi tärkeimmistä menetelmistä "suuren valloittamiseksi pienellä".

Tietämyksen tislaus viittaa suuren ja monimutkaisen "opettajamallin" käyttämiseen ohjaamaan pienen ja yksinkertaisen "opiskelijamallin" koulutusta, mikä voi siirtää suuren mallin tehokkaan suorituskyvyn ja ylivoimaisen yleistyskyvyn kevyempiin, laskennallisiin pienempiin malleihin, jotka maksavat. Vähemmän.

Llama 3.1:n julkaisun jälkeen Metan toimitusjohtaja Zuckerberg korosti myös pienten mallien hienosäädön ja tislaamisen tärkeyttä pitkässä artikkelissaan "Open Source AI Is the Path Forward".

Meidän täytyy kouluttaa, hienosäätää ja tislata omia mallejamme. Jokaisella organisaatiolla on erilaiset tarpeet, joihin parhaiten vastataan käyttämällä malleja, jotka on koulutettu tai hienosäädetty eri mittakaavassa ja tietyillä tiedoilla.

Nyt voit ottaa huippuluokan Llama-malleja, jatkaa niiden harjoittelua omilla tiedoillasi ja sitten tislata ne tarpeitasi parhaiten vastaavaan mallikokoon ilman, että me tai kukaan muu näkee tietojasi.

Alalla uskotaan myös, että Meta Llama 3.1:n 8B- ja 70B-versiot on tislattu erittäin suurista kupeista. Siksi kokonaissuorituskyky on parantunut huomattavasti ja myös mallin tehokkuus on korkeampi.

Tai myös malliarkkitehtuurin optimointi on avainasemassa. Esimerkiksi MobileNet-suunnittelun alkuperäinen tarkoitus on toteuttaa tehokkaita syväoppimismalleja mobiililaitteisiin.

Se vähentää merkittävästi mallin parametrien määrää syvyydeltään erotettavan konvoluution avulla. Verrattuna ResNetiin, MobileNetV1 vähentää parametrien määrää noin 8-9 kertaa.

MobileNet on laskennallisesti tehokkaampi parametrien pienenemisen vuoksi. Tämä on erityisen tärkeää resurssirajoitteisissa ympäristöissä, kuten mobiililaitteissa, koska se voi vähentää merkittävästi laskenta- ja tallennusvaatimuksia tinkimättä suorituskyvystä.

Teknisellä tasolla saavutetusta edistyksestä huolimatta tekoälyteollisuus itse kohtaa edelleen pitkän aikavälin investointien ja korkeiden kustannusten haasteen, ja tuottosykli on suhteellisen pitkä.

"Daily Economic Newsin" epätäydellisten tilastojen mukaan Kiinassa oli tämän vuoden huhtikuun loppuun mennessä lanseerattu yhteensä noin 305 isoa mallia, mutta 16. toukokuuta oli vielä noin 165 isoa mallia, jotka eivät vielä olleet suoritettu rekisteröinti.

Baidun perustaja Robin Li on julkisesti kritisoinut monien nykyisten perusmallien olemassaoloa resurssien haaskausta ja ehdottanut, että resursseja tulisi käyttää enemmän tutkimaan mahdollisuuksia yhdistää malleja toimialojen kanssa ja kehittää seuraavaa mahdollista supersovellusta.

Tämä on myös nykyisen tekoälyteollisuuden ydinkysymys, suhteeton ristiriita mallien määrän kasvun ja käytännön sovellusten toteuttamisen välillä.

Tämän haasteen edessä alan painopiste on vähitellen kääntynyt tekoälyteknologian soveltamisen nopeuttamiseen, ja pienet mallit, joilla on alhaiset käyttöönottokustannukset ja korkeampi tehokkuus, ovat nousseet sopivammaksi läpimurtokohdaksi.

Myös joitain tiettyihin aloihin keskittyviä pieniä malleja, kuten suuria ruoanlaittomalleja ja isoja suoratoistoon tarkoitettuja malleja, on alkanut ilmestyä. Vaikka nämä nimet saattavat vaikuttaa hieman bluffaavilta, ne ovat täsmälleen oikealla tiellä.

Lyhyesti sanottuna tekoäly ei ole tulevaisuudessa enää yksi, valtava olemassaolo, vaan se on monipuolisempi ja yksilöllisempi. Pienten mallien nousu heijastaa tätä suuntausta. Heidän erinomaiset suorituksensa tietyissä tehtävissä todistaa, että "pieni mutta kaunis" voi myös voittaa kunnioitusta ja tunnustusta.

Yksi asia vielä

Jos haluat käyttää mallia etukäteen iPhonessasi, voit yhtä hyvin kokeilla Hugging Facen julkaisemaa iOS-sovellusta nimeltä Hugging Chat.

Lataamalla sovelluksen Magic- ja Outer Zone App Store -tilillä käyttäjät voivat käyttää ja käyttää useita avoimen lähdekoodin malleja, mukaan lukien Phi 3, Mixtral, Command R+ ja muut mallit, mutta niihin rajoittumatta.

Lämmin muistutus, paremman kokemuksen ja suorituskyvyn saavuttamiseksi on suositeltavaa käyttää iPhonen uusimman sukupolven Pro-versiota.

uutiset

Pienemmän ja tehokkaamman GPT-4o minin takana tekoälymallien tulevaisuus ei ole enää niin iso on parempi

Johdanto

yhteystietoni