Microsoft ja NVIDIA lyövät vetoa pienistä malleista. Eivätkö suuret mallit ole enää suosittuja?

2024-08-26

Tekoälyn kehityksessä teknologiajättiläiset kilpailivat aikoinaan suurten kielimallien kehittämisestä, mutta nyt on noussut esiin uusi trendi: pieniä kielimalleja (SLM) on ilmaantunut vähitellen, mikä haastaa menneen "isompi on parempi" käsitteen.

Visuaalinen Kiina

Elokuun 21. päivänä paikallista aikaa Microsoft ja NVIDIA julkaisivat peräkkäin uusimmat pienikieliset mallit - Phi-3.5-mini-instruct ja Mistral-NeMo-Minitron8B. Molempien mallien tärkein myyntivaltti on niiden hyvä tasapaino laskentaresurssien käytön ja toiminnallisen suorituskyvyn välillä. Joillain tavoilla niiden suorituskyky voi jopa kilpailla suurempien mallien kanssa.

Tekoälystartupin Hugging Facen toimitusjohtaja Clem Delangue huomautti, että SLM pystyy ratkaisemaan jopa 99 % käyttöskenaarioista ja ennusti, että vuosi 2024 on SLM:n vuosi. Epätäydellisten tilastojen mukaan teknologiajätit, kuten Meta, Microsoft ja Google, ovat julkaisseet 9 pientä mallia tänä vuonna.

Suuret mallikoulutuskustannukset nousevat

SLM:n nousu ei ole sattumaa, vaan se liittyy läheisesti suurten mallien (LLM) haasteisiin suorituskyvyn parantamisen ja resurssien kulutuksen osalta.

Tekoälystartuppien Vellumin ja Hugging Facen huhtikuussa julkaisema suorituskykyvertailu osoitti, että LLM-yritysten välinen suorituskykyero on umpeutumassa nopeasti, erityisesti erityistehtävissä, kuten monivalintakysymyksissä, päättelyssä ja matemaattisissa tehtävissä, joissa huippumallien väliset erot ovat erittäin suuret. Pieni. Esimerkiksi monivalintakysymyksissä Claude 3 Opus, GPT-4 ja Gemini Ultra saavuttivat kaikki yli 83 prosentin tarkkuuden, kun taas päättelytehtävissä Claude3 Opus, GPT-4 ja Gemini 1.5Pro saavuttivat kaikki tarkkuuden yli 92 %.

Gary Marcus, entinen Uber AI:n johtaja, huomautti: "Luulen, että kaikki sanoisivat, että GPT-4 on askeleen edellä GPT-3.5:tä, mutta laadullista harppausta ei ole tapahtunut yli vuoteen sen jälkeen."

Verrattuna rajoitettuun suorituskyvyn parantamiseen, LLM:n koulutuskustannukset nousevat jatkuvasti. Näiden mallien kouluttaminen vaatii valtavia tietomääriä ja satoja miljoonia tai jopa biljoonia parametreja, mikä johtaa erittäin suureen resurssien kulutukseen. LLM:n kouluttamiseen ja suorittamiseen vaadittava laskentateho ja energiankulutus on huikea, mikä vaikeuttaa pienten organisaatioiden tai henkilöiden osallistumista LLM-kehitykseen.

Kansainvälinen energiajärjestö arvioi, että datakeskuksiin, kryptovaluuttaan ja tekoälyyn liittyvä sähkönkulutus vastaa suunnilleen Japanin koko sähkönkulutusta vuoteen 2026 mennessä.

OpenAI:n toimitusjohtaja Altman sanoi kerran MIT-tapahtumassa, että GPT-4:n koulutus maksaisi vähintään 100 miljoonaa dollaria, kun taas Anthropicin toimitusjohtaja Dario Amodei ennusti, että mallin koulutuksen kustannukset voisivat olla 100 miljardia dollaria tulevaisuudessa.

Lisäksi LLM:n käyttöön tarvittavien työkalujen ja tekniikoiden monimutkaisuus lisää myös kehittäjien oppimiskäyrää. Koko prosessi koulutuksesta käyttöönottoon kestää kauan, mikä hidastaa kehitystä. Cambridgen yliopiston tutkimus osoittaa, että koneoppimismallin käyttöönotto voi kestää yrityksiltä 90 päivää tai enemmän.

Toinen suuri ongelma LLM:ssä on, että se on altis "illuusiolle" - toisin sanoen mallin tuottama tulos näyttää kohtuulliselta, mutta ei itse asiassa ole oikea. Tämä johtuu siitä, että LLM on koulutettu ennustamaan seuraavan todennäköisimmän sanan datan kuvioiden perusteella sen sijaan, että ymmärtäisit tiedot. Tämän seurauksena LLM voi luottavaisesti tuottaa vääriä lausuntoja, sepittää faktoja tai yhdistää toisiinsa liittymättömiä käsitteitä järjettömillä tavoilla. Näiden "illuusioiden" havaitseminen ja vähentäminen on jatkuva haaste luotettavien ja luotettavien kielimallien kehittämisessä.

Pienet mallit vähentävät kustannuksia

Huoli LLM:n valtavasta energiantarpeesta sekä markkinamahdollisuuksista tarjota yrityksille monipuolisempia tekoälyvaihtoehtoja ovat saaneet teknologiayritykset vähitellen kiinnittämään huomionsa SLM:ään.

"Daily Economic News" -toimittajat huomasivat, että molemmat AI-startupit, kuten Arcee, Sakana AI ja Hugging Face, sekä teknologiajätit houkuttelevat sijoittajia ja asiakkaita SLM:n ja taloudellisempien menetelmien avulla.

Aiemmin Google, Meta, OpenAI ja Anthropic ovat kaikki julkaisseet pieniä malleja, jotka ovat kompakteja ja joustavampia kuin lippulaiva LLM. Tämä ei ainoastaan vähennä kehitys- ja käyttöönottokustannuksia, vaan tarjoaa myös kaupallisille asiakkaille halvemman ratkaisun. Koska sijoittajat ovat yhä huolissaan tekoälyhankkeiden korkeista kustannuksista ja epävarmasta tuotosta, useammat teknologiayritykset voivat valita tämän tien. Jopa Microsoft ja NVIDIA ovat nyt julkaisseet omat pienet mallinsa (SLM).

SLM:t ovat virtaviivaisia versioita LLM:istä, joissa on vähemmän parametreja ja yksinkertaisempi rakenne, ja ne vaativat vähemmän dataa ja koulutusaikaa – vain minuutteja tai tunteja. Tämä tekee SLM:stä tehokkaamman ja helpompia ottaa käyttöön pienissä laitteissa. Ne voidaan esimerkiksi upottaa matkapuhelimiin ilman supertietokoneresursseja, mikä vähentää kustannuksia ja parantaa merkittävästi reagointikykyä.

Toinen SLM:n suuri etu on sen erikoistuminen tiettyihin sovelluksiin. SLM:t keskittyvät tiettyihin tehtäviin tai alueisiin, mikä tekee niistä tehokkaampia käytännön sovelluksissa. Esimerkiksi SLM:t ovat usein parempia kuin yleiskäyttöiset mallit tunneanalyysissä, nimettyjen entiteettien tunnistamisessa tai toimialuekohtaisissa kysymyksiin vastaamisessa. Tämä räätälöinti antaa yrityksille mahdollisuuden luoda malleja, jotka vastaavat tehokkaasti heidän erityistarpeisiinsa.

SLM:t ovat myös vähemmän alttiita "hallusinaatioille" tietyn toimialueen sisällä, koska ne on yleensä koulutettu kapeampiin, kohdistetumpiin tietokokonaisuuksiin, mikä auttaa mallia oppimaan tehtävänsä kannalta tärkeimmät kuviot ja tiedot. SLM:n keskittynyt luonne vähentää epäolennaisen, odottamattoman tai epäjohdonmukaisen tulosteen luomisen todennäköisyyttä.

Pienemmästä koostaan huolimatta SLM:n suorituskyky ei ole huonompi kuin suurempiin malleihin verrattuna. Microsoftin uusimmassa Phi-3.5-mini-ohjeessa on vain 3,8 miljardia parametria, mutta sen suorituskyky on parempi kuin mallit, joissa on paljon korkeammat parametrit kuin Llama3.18B ja Mistral7B. Aaron Mueller, kielimallitutkimuksen asiantuntija Northeastern Universitystä (huippu yksityinen tutkimusyliopisto, joka sijaitsee Bostonissa, Massachusettsissa, Yhdysvalloissa), huomautti, että parametrien lukumäärän laajentaminen ei ole ainoa tapa parantaa mallin suorituskykyä laadukkaammalla tiedolla tuottaa myös samanlaisia vaikutuksia.

OpenAI:n toimitusjohtaja Altman sanoi eräässä tilaisuudessa huhtikuussa, että hän uskoo, että olemme jättimäisten mallien aikakauden lopussa ja "parannamme niiden suorituskykyä muilla tavoilla".

On kuitenkin huomattava, että vaikka SLM:n erikoistuminen on suuri etu, sillä on myös rajoituksia. Nämä mallit voivat toimia huonosti oman koulutusalueensa ulkopuolella, niiltä puuttuu laaja tietopohja eivätkä ne pysty luomaan olennaista sisältöä monista eri aiheista verrattuna LLM:ään. Tämä rajoitus edellyttää, että käyttäjien on ehkä otettava käyttöön useita SLM:itä eri kysyntäalueiden kattamiseksi, mikä monimutkaistaa tekoäly-infrastruktuuria.

Tekoälykentän nopean kehityksen myötä pienten mallien standardit voivat edelleen muuttua. David Ha, Tokiossa toimivan pienen mallistartup-yrityksen Sakana perustaja ja toimitusjohtaja, sanoi, että tekoälymallit, jotka näyttivät vielä muutama vuosi sitten suurilta, näyttävät nyt "vaatimattomilta". "Koko on aina suhteellista", sanoi David Ha.

päivittäisiä talousuutisia

Raportti/palaute

uutiset

Microsoft ja NVIDIA lyövät vetoa pienistä malleista. Eivätkö suuret mallit ole enää suosittuja?

Johdanto

Yhteystietoni