Isossa malliteollisuudessa ei ole "oikeaa" avointa lähdekoodia ollenkaan?

2024-08-01

Kirjoittaja｜ maanantai hymy
Sähköpostiosoite｜ [email protected]

Avoimen lähdekoodin suuret mallit ovat olleet viime aikoina erittäin vilkkaita. Ensin Apple hankki avoimen lähdekoodin 7 miljardin parametrin pienen mallin DCLM:n, ja sitten raskaan sarjan Meta's Llama 3.1 ja Mistral Large 2 olivat avoimen lähdekoodin monissa vertailutesteissä Llama 3.1 ohitti suljetun lähdekoodin SOTA-mallin.

Avoimen lähdekoodin ja suljetun lähdekoodin ryhmittymien välinen keskustelu ei kuitenkaan osoita pysähtymisen merkkejä.

Toisella puolella Meta sanoi Llama 3.1:n julkaisun jälkeen: "Nyt aloitamme avoimen lähdekoodin johtaman uuden aikakauden. Toisaalta Sam Altman kirjoitti artikkelin "Washington Postiin" nostaen suoraan ristiriitaa. avoimen lähdekoodin ja suljetun lähteen välillä maan ja tietoisuuden tasolle.

Maailman tekoälykonferenssissa jokin aika sitten Robin Li totesi suoraan, että "avoin lähdekoodi on itse asiassa eräänlainen IQ-vero", koska suljetun lähdekoodin mallit ovat selvästi tehokkaampia ja niillä on alhaisemmat päättelykustannukset, mikä taas herätti keskustelua.

Myöhemmin Fu Sheng ilmaisi myös mielipiteensä Hän uskoi, että avoimen lähdekoodin ja suljetun lähdekoodin leirit kilpailevat keskenään ja kehittyvät yhdessä. Hän kiisti myös näkemyksen, että "avoin lähdekoodi on itse asiassa eräänlainen IQ-vero": "Avoimen lähdekoodin isokielimalli on ilmainen, miten se sai IQ-veron ja kuka veron kerää?", "Jos nykypäivän yritykset käyttävät maksulliset suljetun lähdekoodin suuret kielimallit, joita kutsutaan "IQ-veroksi", erityisesti erittäin korkeat mallien lisenssimaksut ja API-maksut, jotka maksavat satoja miljoonia vuodessa ja jotka lopulta ostettiin takaisin koristeiksi, eivätkä edes työntekijät voineet käyttää niitä ollenkaan (mallit).

Tämän keskustelun ytimessä on teknologian kehityksen suunta ja malli, joka heijastaa eri sidosryhmien näkemyksiä ja näkemyksiä Ennen kuin puhumme suurten kielimallien avoimesta lähdekoodista ja suljetusta lähdekoodista, meidän on selvennettävä termejä "avoin lähdekoodi" ja ". suljettu lähde". Kaksi peruskäsitettä.

Termi "avoin lähdekoodi" on peräisin ohjelmistokentästä ja viittaa sen lähdekoodin julkistamiseen ohjelmistokehitysprosessin aikana, jolloin kuka tahansa voi tarkastella, muokata ja jakaa sitä.avoimen lähdekoodin ohjelmistoOhjelmistojen kehittämisessä noudatetaan yleensä vastavuoroisen yhteistyön ja vertaistuotannon periaatteita edistäen tuotantomoduulien, viestintäputkien ja interaktiivisten yhteisöjen kehittämistä Tyypillisiä edustajia ovat Linux ja Mozilla Firefox.

Suljetun lähdekoodin ohjelmisto (omistettu ohjelmisto) Kaupallisista tai muista syistä johtuen lähdekoodia ei julkisteta ja tarjotaan vain tietokoneella luettavia ohjelmia (kuten binäärimuotoa). Lähdekoodin omistaa ja hallitsee vain kehittäjä. Tyypillisiä edustajia ovat Windows ja Android.

Avoin lähdekoodi on avoimuuteen, jakamiseen ja yhteistyöhön perustuva ohjelmistokehitysmalli, joka kannustaa kaikkia osallistumaan ohjelmistojen kehittämiseen ja parantamiseen sekä edistää teknologian jatkuvaa edistymistä ja laajaa soveltamista.

Suljetulla lähdekoodilla kehitetty ohjelmisto on todennäköisemmin vakaa, fokusoitu tuote, mutta suljetun lähdekoodin ohjelmistot yleensä maksavat rahaa, ja jos siinä on virheitä tai puuttuvia ominaisuuksia, sinun on odotettava kehittäjän korjaavan ongelman.

Mitä tulee avoimen lähdekoodin suureen malliin, teollisuus ei ole saavuttanut selkeää yksimielisyyttä, kuten avoimen lähdekoodin ohjelmistot.

Suuret kielimallit ja avoimen lähdekoodin ohjelmistot ovat käsitteeltään samanlaisia. Molemmat perustuvat avoimuuteen, jakamiseen ja yhteistyöhön, jotka kannustavat yhteisöä osallistumaan kehittämiseen ja parantamiseen, edistävät teknologista kehitystä ja lisäävät läpinäkyvyyttä.

Toteutuksessa ja vaatimuksissa on kuitenkin merkittäviä eroja.

Ohjelmistojen avoin lähdekoodi on suunnattu pääasiassa sovelluksille ja työkaluille, ja avoimen lähdekoodin resurssivaatimukset ovat pienemmät, kun taas suurten kielimallien avoimessa lähdekoodissa tarvitaan paljon laskentaresursseja ja laadukasta dataa, ja niillä voi olla enemmän käyttörajoituksia. Siksi, vaikka molempien avoimen lähdekoodin tavoitteena on edistää innovaatiota ja teknologian leviämistä, suuren kielen avoimen lähdekoodin malli on monimutkaisempi ja yhteisön panoksen muoto on myös erilainen.

Robin Li korosti myös eroa näiden kahden välillä. Avoimen lähdekoodin malli ei tarkoita avointa lähdekoodia: "Avoimen lähdekoodin malli voi saada vain joukon parametreja, ja sinun on suoritettava SFT (valvottu hienosäätö) ja turvallisuuskohdistus. saat vastaavan lähdekoodin, et saa sitä." Kun tiedät kuinka paljon ja kuinka paljon dataa käytettiin näiden parametrien opettamiseen, ei jokainen voi lisätä öljyä tuleen. Näiden asioiden hankkiminen ei salli sinun seisoa jättiläisten harteilla ja kehittyä iteratiivisesti."

Koko prosessin kattava suurten kielimallien avoin lähdekoodi sisältää koko mallinkehitysprosessin, tiedonkeruusta, mallin suunnittelusta, koulutuksesta käyttöönottoon, avoimeksi ja läpinäkyväksi. Tämä lähestymistapa ei sisällä vain tietojoukkojen ja malliarkkitehtuurin paljastamista, vaan se kattaa myös koulutusprosessin koodin jakamisen ja esikoulutettujen mallipainojen vapauttamisen.

Viime vuonna suurten kielimallien määrä on lisääntynyt valtavasti, monet väittävät olevansa avoimen lähdekoodin, mutta kuinka avoimia ne todella ovat?

Andreas Liesenfeld, tekoälyn tutkija Radboudin yliopistosta Hollannista, ja laskennallinen lingvisti Mark Dingemanse havaitsivat myös, että vaikka termiä "avoin lähdekoodi" käytetään laajalti, monet mallit ovat parhaimmillaan vain "avoimia painoja" ja useimmat muut asiat järjestelmän rakentaminen Kaikki näkökohdat on piilotettu.

Esimerkiksi vaikka tekniikat, kuten Meta ja Microsoft, markkinoivat suuria kielimallejaan "avoin lähdekoodina", ne eivät paljasta tärkeitä taustalla olevaan teknologiaan liittyviä tietoja. Heidän yllätyksensä oli se, että vähemmän resursseja omaavien tekoälyyritysten ja -laitosten suorituskyky oli vieläkin kiitettävää.

Tutkimusryhmä analysoi useita suosittuja "avoimen lähdekoodin" suuria kielimalliprojekteja ja arvioi niiden todellista avoimuutta useista näkökohdista, kuten koodista, tiedoista, painotuksista, API:ista ja dokumentaatiosta. Tutkimuksessa käytettiin myös OpenAI:n ChatGPT:tä vertailukohtana suljetulle lähdekoodille, mikä korosti "avoimen lähdekoodin" projektien todellista tilaa.

✔ tarkoittaa auki, ~ tarkoittaa osittain auki ja X tarkoittaa kiinni

Tulokset osoittavat merkittäviä eroja projektien välillä Tämän luokituksen mukaan Allen Institute for AI:n OLMo on avoimen lähdekoodin malli, jota seuraa BigSciencen BloomZ, jotka molemmat ovat voittoa tavoittelemattomien organisaatioiden kehittämiä.

Paperissa todetaan, että vaikka Meta's Llama ja Google DeepMind's Gemma väittävät olevansa avoimen lähdekoodin tai avoimia, ne ovat itse asiassa vain avoimia painoja Malli kohdistuu tiettyihin tehtäviin. Tee hienosäätöjä.

Viimeaikaiset LLaMA 3:n ja Mistral Large 2:n julkaisut ovat herättäneet paljon huomiota. Mallin avoimuuden kannalta LLaMA 3 paljastaa mallin painot. Käyttäjät voivat käyttää ja käyttää näitä esikoulutettuja ja opastettuja hienosäädettyjä mallipainoja. mutta täydellistä harjoituskoodia ei anneta, eikä LLaMA 3:n harjoitustietoja julkaista. Mutta tällä kertaa LMeta toi 93-sivuisen teknisen raportin LLaMA 3.1 405B:stä.

Mistral Large 2:n tilanne on samanlainen. Se ylläpitää korkeaa avoimuutta mallipainojen ja API:n suhteen, mutta avoimuuden aste on pienempi täydellisen koodin ja koulutustietojen suhteen. tutkimuksen salliminen Käyttö kaupallisen käytön rajoituksin.

Google sanoi, että yritys oli "erittäin täsmällinen kielellään" kuvaillessaan mallia, ja he kutsuivat Gemmaa avoimeksi avoimen lähdekoodin sijaan. "Olemassa olevat avoimen lähdekoodin konseptit eivät aina sovellu suoraan tekoälyjärjestelmiin."

Tärkeä konteksti tälle tutkimukselle on EU:n tekoälylaki, joka voimaan tullessaan asettaa löysempiä säännöksiä avoimeksi luokitelluille malleille, joten avoimen lähdekoodin määritelmät voivat nousta entistä tärkeämmiksi.

Ainoa tapa innovoida on tutkijoiden mukaan säätämällä mallia, jota varten tarvitset tarpeeksi tietoa oman version rakentamiseen. Ei vain sitä, vaan mallit on tarkasteltava tarkasti. Jos mallia on esimerkiksi koulutettu suurella määrällä testinäytteitä, tietyn testin läpäiseminen ei välttämättä ole saavutus.

He ovat myös iloisia monien avoimen lähdekoodin vaihtoehtojen ilmestymisestä, ja ChatGPT on niin suosittu, että sen harjoitustiedoista tai muista kulissien takana olevista temppuista on helppo unohtaa mitään. Tämä on sudenkuoppa niille, jotka haluavat ymmärtää mallia paremmin tai rakentaa sen pohjalta sovelluksia, kun taas avoimen lähdekoodin vaihtoehdot mahdollistavat kriittisen perustutkimuksen.

Silicon Star teki myös tilastoja joidenkin kotimaisten avoimen lähdekoodin suurten kielimallien avoimen lähdekoodin tilanteesta:

Taulukosta nähdään, että ulkomaan tilanteen tapaan perusteellisempaa avoimen lähdekoodin mallia ohjaavat periaatteessa tutkimuslaitokset Tämä johtuu pääasiassa siitä, että tutkimuslaitosten tavoitteena on edistää tieteellisen tutkimuksen edistymistä ja teollisuuden kehitystä, ja niitä on enemmän halukkaita avaamaan tutkimustuloksiaan.

Kaupalliset yritykset käyttävät resurssietujaan tehokkaampien mallien kehittämiseen ja kilpailuetujen saavuttamiseen sopivien avoimen lähdekoodin strategioiden avulla.

GPT-3:sta BERT:iin avoin lähdekoodi on tuonut tärkeän sysäyksen suurelle malliekosysteemille.

Julkaisemalla sen arkkitehtuurin ja koulutusmenetelmät tutkijat ja kehittäjät voivat edelleen tutkia ja parantaa näitä perusteita, mikä johtaa uusimpaan teknologiaan ja sovelluksiin.

Avoimen lähdekoodin suurten mallien ilmaantuminen on laskenut merkittävästi kehityskynnystä Kehittäjät ja pienet ja keskisuuret yritykset voivat hyödyntää näitä edistyksellisiä tekoälytekniikoita ilman, että heidän tarvitsee rakentaa malleja tyhjästä, mikä säästää paljon aikaa ja resursseja. Tämä mahdollistaa innovatiivisempien hankkeiden ja tuotteiden nopean toteuttamisen, mikä edistää koko toimialan kehitystä. Kehittäjät jakavat aktiivisesti optimointimenetelmiä ja sovellustapauksia avoimen lähdekoodin alustalla, mikä myös edistää teknologian kypsyyttä ja soveltamista.

Koulutukseen ja tieteelliseen tutkimukseen avoimen lähdekoodin suuret kielimallit tarjoavat arvokkaita resursseja. Näitä malleja tutkimalla ja käyttämällä opiskelijat ja aloittelevat kehittäjät voivat nopeasti hallita kehittyneitä tekoälytekniikoita, lyhentää oppimiskäyrää ja tuoda uutta verta alalle.

Suurten kielimallien avoimuus ei kuitenkaan ole yksinkertainen binääriominaisuus. Transformer-pohjainen järjestelmäarkkitehtuuri ja sen koulutusprosessi ovat erittäin monimutkaisia, ja niitä on vaikea luokitella avoimeksi tai suljetuksi. Avoimen lähdekoodin iso malli ei ole yksinkertainen etiketti, vaan enemmän kuin spektri, joka vaihtelee täysin avoimesta lähdekoodista osittain avoimeen lähdekoodiin vaihtelevalla tasolla.

Suurten kielimallien avoin lähdekoodi on monimutkainen ja huolellinen tehtävä, eikä kaikkien mallien tarvitse olla avoimen lähdekoodin.

Meidän ei myöskään pidä vaatia täyttä avointa lähdekoodia "moraalisen sieppauksen" muodossa, koska se vaatii paljon teknologiaa, resursseja ja turvallisuusnäkökohtia ja vaatii tasapainoa avoimuuden ja turvallisuuden, innovaation ja vastuullisuuden välillä. Kuten muutkin teknologian osa-alueet, erilaiset panostavat rakentavat rikkaamman teknologiaekosysteemin.

Avoimen lähdekoodin ja suljetun lähdekoodin mallien välistä suhdetta voidaan verrata avoimen lähdekoodin ja suljetun lähdekoodin ohjelmistojen rinnakkaiseloon ohjelmistoteollisuudessa.

Avoimen lähdekoodin malli edistää teknologian laajaa leviämistä ja innovaatiota sekä tarjoaa enemmän mahdollisuuksia tutkijoille ja yrityksille, kun taas suljetun lähdekoodin malli edistää standardien parantamista koko toimialalla. Terve kilpailu näiden kahden välillä inspiroi jatkuvaan parantamiseen ja tarjoaa käyttäjille monipuolisia valintoja.

Aivan kuten avoimen lähdekoodin ja patentoidut ohjelmistot ovat yhdessä muokanneet tämän päivän ohjelmistoekosysteemiä,Avoimen lähdekoodin ja suljetun lähdekoodin suurten mallien välillä ei ole binaarista vastakohtaa. Näiden kahden rinnakkaiselo on tärkeä liikkeellepaneva voima tekoälyteknologian jatkuvalle kehittymiselle ja erilaisten sovellusskenaarioiden tarpeiden täyttämiselle. Viime kädessä käyttäjät ja markkinat tekevät itselleen sopivan valinnan.

uutiset

Isossa malliteollisuudessa ei ole "oikeaa" avointa lähdekoodia ollenkaan?

Johdanto

yhteystietoni