uutiset

Hintasota on kovaa ja pieni tekoälymalli nousee huimaan

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Pienten tekoälymallien räjähdysmäisestä kasvusta on tullut uusi areena tekoälyjättiläisille kilpailla.

Suuri mallien hintasota jatkuu ikuisesti. Tekoälyyritykset, jotka ovat investoineet valtavia summia, tarvitsevat pikaisesti edistystä liiketoimintatarinoissaan , ja uusi kilpailukierros on alkanut.

Ensin HuggingFace julkaisi SmolLM - 135M, 360M ja 1.7B Se käytti vain 650B tokeneita harjoitteluun, mutta sen suorituskyky ylitti Qwen 1.5B ja Phi 1.5B.

Seuraavana päivänä Mistral AI ja NVIDIA julkaisivat yhdessä Mistral NeMo:n, jota kutsutaan "Mistral AI:n parhaaksi pieneksi malliksi". Se on helppokäyttöinen ja voi suoraan korvata minkä tahansa Mistral 7B -järjestelmän.

Samana päivänä OpenAI lähti "ostosmatkalle" ja lanseerasi miniversion GPT-4o:sta - GPT-4o Mini. Se kutsui tätä uutta mallia "tehokkaimmaksi ja kustannustehokkaimmaksi pienparametrimalliksi" ja piti sitä The näyttömalli korvaa GPT-3.5:n verkkoversion "etuvaiheen" sijainnin.

Apple julkaisi DCLM-pienen mallin samana päivänä kuin OpenAI, ja se oli avoimen lähdekoodin heti julkaisun jälkeen. "Tämä on tähän mennessä tehokkain todella avoimen lähdekoodin malli", sanoi Vaishaal Shankar, tutkija Applen ML-tiimistä.

Näillä malleilla on pienet parametrit ja ne vievät vähemmän muistia Tietyissä skenaarioissa tulokset voivat olla verrattavissa suuriin malleihin, mikä tekee niistä kustannustehokkaan valinnan.

"Pienten mallien on oltava helpompi toteuttaa arvoa." liiketoimintavirtojen, toimivuuden ja taloudellisuuden yhdistäminen on seksuaalisesti toteutettavissa."

Tekoälyn luovan mallin taistelukentällä iteraationopeus on äärimmäisen nopea. Tämän päivän "paras" voi hävitä välittömästi huomisen uudella versiolla, ja "historiallisia ennätyksiä" kumotaan ja kirjoitetaan jatkuvasti. "Malleja päivitetään liian nopeasti, ja sitä on vaikea arvioida. Yksi valmistaja väittää, että se on "suurin ja paras", kun taas toinen valmistaja väittää olevansa "pienin ja paras"." Tekoälyn vanhempi tarkkailija teollisuus kertoi 21st Century Business Heraldille Toimittajien mukaan tekoälymallit ovat häikäiseviä Jos tekoälyyritykset haluavat menestyä bisnestarinoissa, niiden on toimittava kymmen- tai satakertaisesti.


Kuvan lähde: Creative Drawing Xu Shuxing


Pieni mallirata avaa "rullan"

Tekoälyjättiläiset julkaisevat pieniä malleja intensiivisesti kilpaillakseen suorituskyvyn lisäksi myös hinnalla.

Open AI:n virallisen verkkosivuston mukaan vertailutesteissä, kuten MMLU, MGSM, HumanEval ja MMMU, GPT-4o mini on osoittanut paremman tekstin ja visuaalisen päättelyn ja matemaattisen päättelyn kuin pienet mallit, kuten GPT-3.5 Turbo ja Gemini Flash, Claude Haiku , koodaus- ja multimodaaliset päättelyominaisuudet, erityisesti matemaattiset päättely- ja koodausominaisuudet, ovat paljon parempia kuin GPT-3.5 Turbo ja muut pienet mallit ja hieman heikompia kuin GPT-4o. Viimeisimmässä LMSYS-blind testiareenan rankingissa GPT-4o mini saavutti myös yhteisen ensimmäisen sijan GPT-4o:n kanssa Jopa OpenAI:n toimitusjohtaja Sam Altman ei voinut salata innostustaan ​​ja julkaisi sosiaalisessa mediassa: "Emme ole koskaan olleet niin innoissamme. mistä tahansa arvioinnista."

Erinomaisen suorituskyvyn lisäksi OpenAI tarjoaa myös edullisen valttikortin. Kun se tuli verkkoon 18. heinäkuuta, OpenAI ilmoitti, että GPT-4o minin hinta on 15 senttiä miljoonalta syöttötunnisteelta ja 60 senttiä miljoonalta lähtötunnisteelta, mikä on yli 60 % halvempi kuin GPT-3.5 Turbo. 24. heinäkuuta OpenAI ilmoitti jälleen, että se tarjoaa tästä lähtien 23. syyskuuta asti GPT-4o mini-hienosäätöpalveluita tasojen 4 ja 5 käyttäjille ilmaiseksi, 2 miljoonan tokenin päivärajalla, ja ylijäämä veloitetaan. 3 dollaria 1 miljoonalta tokenilta. OpenAI sanoi: "Odotamme, että GPT-4o mini laajentaa tekoälyn sovellusaluetta ja tekee tekoälystä edullisempaa."

Ping An Securities -tutkimusraportti uskoo, että GPT-4o mini on uuden sukupolven lähtötason tekoälyn "pieni malli", jonka hinta on huomattavasti alennettu ja jolla on sekä suorituskykyä että kustannustehokkuutta. Tällä hetkellä suuret mallit ympäri maailmaa osoittavat vähitellen kehitystrendiä, joka on siirtymässä yksipuolisesta suorituskykykilpailusta suorituskykyä ja käytännöllisyyttä korostavaan kilpailuun. Kun suuret mallien ominaisuudet saavuttavat tietyn tason, ne siirtyvät väistämättä kohti sovellutuksia parantamalla tuotteidensa kustannustehokkuutta ja edistämällä loppupään sovellusten edistämistä ja käyttöönottoa, suurten mallinvalmistajien odotetaan nopeuttavan suljetun liiketoimintasilmukan muodostumista. suuri malliteollisuusketju.

GPT-4o minin jälkeen julkaistu Apple DCLM -malli on myös silmiinpistävä. DCLM on jaettu kahteen kokoon: 1,4 miljardin parametrin ja 7 miljardin parametrin versio ylittää Mistral-7B:n, ja sen suorituskyky on lähellä Llama 3:a ja Gemmaa. MMLU (5-shot) -benchmarkissa DCLM-7B saavutti 63,7 %:n tarkkuuden. Tutkijoiden mukaan tämä suorituskyky paranee 6,6 % verrattuna aikaisempaan huippuluokan avoimen datan kielimalliin MAP-Neo ja vaatii 40 % vähemmän laskentaa. Vielä tärkeämpää on, että tämä tulos ylittää Mistral-7B-v0.3:n 62,7 prosentin tarkkuudella ja on lähellä Gemma 8B:tä 64,3 prosentin tarkkuudella, Llama3 8B:tä 66,2 prosentin tarkkuudella ja Phi-3 7B:tä. 69,9 %.

Sen sijaan, että "isompi on parempi", Apple käyttää mieluummin pienten mallien reittiä. Tämän vuoden huhtikuussa Apple julkisti neljän esikoulutetun suuren mallin perheen nimeltä OpenELM, jotka olivat kooltaan äärimmäisen pieniä. Tuolloin ne olivat jo siirtymässä kohti tavoitetta "antaa tekoälyn toimia paikallisesti Applen laitteilla".

Kesäkuussa Apple paljasti tekoälykehityssuunnitelmansa ja aikoi upottaa pieniä malleja mobiililaitteisiin sujuvasti, mikä paitsi saavuttaa "nopeamman ja turvallisemman" tavoitteen, myös ratkaisee mobiililaitteiden ja mallien integroinnin yhdellä iskulla. .

Mistral NeMo, joka on rakennettu yhteistyössä Mistral AI:n ja NVIDIA:n kanssa, käy läpi edistyneen hienosäätö- ja kohdistusvaiheen, jotta se onnistuu noudattamaan tarkkoja ohjeita, päättelemään, käsittelemään useita keskustelukierroksia ja luomaan koodia. Ymmärretään, että Mistral NeMo on suunnattu pääasiassa yritysympäristöihin ja sen tavoitteena on antaa yrityksille mahdollisuus toteuttaa tekoälyratkaisuja ilman suuria pilviresursseja.

Venturebeatin haastattelussa Bryan Catanzaro, NVIDIA:n soveltavan syväoppimisen tutkimuksen varatoimitusjohtaja, käsitteli pienten mallien etuja. "Pienet mallit on helpompi saada ja käyttää, ja niillä voi olla erilaisia ​​liiketoimintamalleja, koska ihmiset voivat käyttää niitä omilla järjestelmillään kotonaan", hän sanoi.

Suuret mallit ovat tulleet toiselle puoliskolle Teknisistä määristä sovelluksiin, markkinat ovat yhä kiinnostuneempia tehokkaista ja edullisista malleista, jotka on helpompi ottaa käyttöön paikallisesti esitys.

Alan analyytikot uskovat, että tekoälyn käyttöönotossa on selkeä uusi suuntaus eli malleissa, jotka voivat toimia tehokkaasti paikallisella laitteistolla, mikä hälventää monien yritysten huolen tekoälyratkaisujen laajamittaisesta käyttöönotosta, kuten tietosuojasta, latenssista ja korkeasta. kustannuksia. "Tämä saattaa tehdä kilpailusta reilumpaa, ja myös pienet yritykset, joilla on rajalliset resurssit, saavat tekoälymallien siunauksen, mikä kaventaa luontaista kuilua suuriin yrityksiin."


Astu pienen malliradan ratin taakse

Miksi tekoälyjättiläiset avaavat pieniä mallikappaleita? osittain tai kustannussyistä.

Suuret mallit ovat kalliita kehittää ja käyttää, ja jopa OpenAI:n kaltaisilla jättiläisillä on vaikeuksia hankkia niihin varaa.

Äskettäin sisäpiiriläinen analysoi, että "OpenAI voi menettää 5 miljardia dollaria tänä vuonna ja sillä on riski, että varat loppuvat 12 kuukauden kuluessa." Tämän vuoden maaliskuussa OpenAl on käyttänyt lähes 4 miljardia dollaria Microsoft-palvelimien vuokraamiseen ChatGPT:n ja sen taustalla olevan suuren kielimallin (LLM) käyttöä varten. ChatGPT:n lisäksi OpenAlin koulutuskustannukset, mukaan lukien datamaksut, voivat nousta 3 miljardiin dollariin tänä vuonna. Viime vuonna OpenAl vauhditti uusien tekoälyjen koulutusta alun perin suunniteltua nopeammin, asiaan perehtyneiden ihmisten mukaan alun perin suunniteltiin noin 800 miljoonaa dollaria tällaisiin kustannuksiin, mutta päätyi kuluttamaan paljon enemmän.

Vertailun vuoksi pienillä malleilla on alhaiset kustannukset, nopea vaste ja niitä voidaan käyttää paikallisesti, mikä tekee niistä mukautuvia henkilökohtaisiin ja tarkempiin käyttötarpeisiin. Alan sisäpiiriläiset sanoivat: "Koska globaaleista tekoälylaitteistoista on pulaa, pienet mallit tarkoittavat alhaisempia käyttöönotto- ja koulutuskustannuksia, ja niiden tulosvaikutukset ovat riittävät tiettyjen tehtävien hoitamiseen."

Kotimaisesta tekoälyyrityksestä vastaava liikemies kertoi 21st Century Business Herald -lehden toimittajalle, että pieni parametriasteikko voi merkittävästi säästää päättelykuluja. Mallin koulutukseen ja säätämiseen vaadittavat laitteistokustannukset ovat paljon pienemmät kuin suuren mallin. Aikuiset kehittäjät voivat jopa kouluttaa pystysuuntaisia ​​malleja alhaisin kustannuksin, näiden toimintojen kustannukset ovat paljon alhaisemmat kuin suurten mallien.

OpenAI:n perustajajäsenen ja Teslan entisen tekoälyn johtajan Andrej Karpathyn äskettäinen ennuste on varsin edustava. Hän ehdotti, että generatiivisten mallien kokokilpailu käännetään kilpailemaan sen kanssa, kenen malli on pienempi ja älykkäämpi.

Andrej Karpathyn selityksen mukaan syy siihen, miksi nykyinen suuri malli on niin suuri, on se, että se on edelleen erittäin tuhlaava harjoittelun aikana. Vaikka suuri malli on erittäin hyvä muisti, se tarkoittaa myös sitä, että suuri malli muistaa paljon merkityksettömiä yksityiskohtia. ne sisällöt Tätä ei pitäisi kutsua toistuvasti tietyssä ongelmassa.

Pienissä malleissa koulutustavoitteista tulee yksinkertaisempia, suoria ja tehokkaampia, jolloin tekoäly voi oppia hyödyllisempää tietoa suoremmin.

Suuret mallit ja pienet mallit eivät kuitenkaan ole "valitse yksi", vaan niiden kehitysreiteillä on edelleen toisiltaan oppimisen merkitys.

Andrej Karpathy sanoi: "Mallin on ensin kasvattava ennen kuin siitä voi tulla pienempi. Koska tarvitsemme suuria malleja rekonstruoidaksemme ja muokataksemme tietoja ihanteelliseen muotoon. Yksi malli auttaa luomaan harjoitustietoja seuraavaa mallia varten ja saa vähitellen täydellisen harjoittelun. Syötä se sitten pienelle mallille, jonka ei tarvitse muistaa kaikkea, mutta hänen on tarkistettava se silloin tällöin varmistaakseen, että se on tarkka."

Robin Li totesi myös Baidu AI Developer Conference Create 2024 -tapahtumassa, että suuren mittakaavan natiivisovellukset tulevaisuudessa ovat pohjimmiltaan Moe-arkkitehtuuria, joka on sekoitus suuria ja pieniä malleja. Robin Li sanoi myös, että perusmallin tislaaminen suurella mallipakkauksella ja sen jälkeen datalla harjoitteleminen on paljon parempi kuin pienen mallin opettaminen tyhjästä. Se on parempi, nopeampi ja kustannustehokkaampi kuin avoimen lähdekoodin malliin koulutettu malli .