uutiset

Llama 3.1 on syntynyt!Avoimen lähdekoodin jättiläinen voitti suljetun lähdekoodin ensimmäistä kertaa, ja GPT-4:n aikakausi on tulossa kaikille

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen] Suurten mallien malli on jälleen muuttunut yhdessä yössä. Llama 3.1 405B teki suuren debyytin, ohittaen GPT-4o:n ja Claude 3.5 Sonnetin useissa testeissä. Ensimmäistä kertaa historiassa avoimen lähdekoodin malli voitti nykypäivän vahvimman suljetun lähdekoodin mallin. Xiao Zha sanoi rohkeasti: Avoimen lähdekoodin tekoäly voittaa ehdottomasti, aivan kuten Linux lopulta voitti.

Uusi avoimen lähdekoodin kuningas, Llama 3.1 405B, lanseerattiin virallisesti eilen illalla!

Useissa vertailuissa sekä GPT-4o että Claude 3.5 Sonnet ohitettiin. Toisin sanoen suljetun lähdekoodin SOTA-malli on jo saavuttamassa avoimen lähdekoodin mallia.


Yön aikana Llama 3.1 405B:stä tuli maailman tehokkain malli.

(Samaan aikaan verkossa on myös uusia versioita 70B- ja 8B-malleista)


LeCun tiivisti useita Llama 3.1 -malliperheen avainkohtia:

- 405B-suorituskyky verrattavissa parhaisiin suljetun lähdekoodin malleihin

- Avoimen lähdekoodin/vapaa käyttää painoja ja koodia, mikä mahdollistaa hienosäädön, tislauksen muihin malleihin ja käyttöönoton missä tahansa

- 128k konteksti, monikielinen, hyvä koodin luontikyky, monimutkainen päättelykyky ja työkalujen käyttökyky

- Llama Stack API mahdollistaa helpon integroinnin


Tällä kertaa Metan voidaan sanoa toteuttaneen avoimen lähdekoodin hengen loppuun asti ja samalla julkaissut avokätisesti yli 90-sivuisen paperin.

HuggingFacen johtava tutkija Thomas Wolf kehui: Jos haluat tutkia suuria malleja tyhjästä, tämä paperi on mitä tarvitset!

Se kattaa kirjaimellisesti kaiken - koulutusta edeltävän datan, suodatuksen, lämpökäsittelyn, synteettisen datan, skaalauslait, infrastruktuurin, rinnakkaiskäsittelyn, koulutusmenetelmät, harjoituksen jälkeisen mukautuksen, työkalujen käytön, benchmarkingin, päättelystrategiat, kvantisoinnin, näön, puheen ja videon……

AI2-tutkija Nathan Lambert arvioi, että tämä 90-sivuinen Llama 3.1 -paperi vie suoraan avoimen lähdekoodin mallin kehitystä eteenpäin 3-9 kuukaudella!


Metan toimitusjohtaja Xiao Zha kirjoitti ylpeänä pitkän artikkelin: Avoimen lähdekoodin tekoäly on tie eteenpäin.


New York Timesin haastattelussa Xiao Zha tukee avoimen lähdekoodin tekoälyä

Tässä artikkelissa Xiao Zha muisteli emotionaalisesti Metan käännettä LLM-aallon aikana...

Viime vuonna Llama 2 oli verrattavissa vain marginaalisiin vanhempiin malleihin, Llama 3 on jo edistyneimmät mallit jo ensi vuodesta alkaen;

Mitä tulee kysymykseen, jota häneltä on kysytty monta kertaa: "Oletko huolissasi teknisten etujen menettämisestä avoimen lähdekoodin Llaman takia?", Xiao Zha vertasi itseään suoraan Linuxiin.

Hän sanoi, että aiemmin suuret teknologiayritykset investoivat voimakkaasti omiin Unix-versioihinsa, mutta lopulta avoimen lähdekoodin Linux voitti, koska se antoi kehittäjille mahdollisuuden muokata koodia haluamallaan tavalla, mikä oli edistyneempää, turvallisempaa ja ekologisesti laajempaa.

Myös tekoäly kehittyy väistämättä samalla tavalla.

Tätä tarkoitusta varten Meta on erityisesti lieventänyt lisenssiään, jolloin kehittäjät voivat ensimmäistä kertaa käyttää Llama 3.1 -mallin korkealaatuista tulosta parantaakseen ja kehittääkseen kolmannen osapuolen tekoälymalleja.


Netizen: Uusi aikakausi alkaa

Kun Llama 3.1 virallisesti poistettiin, se aiheutti kohua koko verkossa.

Tekoälymestari Karpathy ilmaisi heti joitain ajatuksiaan:

Tänään, 405B-mallin julkaisun myötä, huippuluokan suuri GPT-4/Claude 3.5 Sonnet -malli on avoin kaikkien käytettäväksi ja rakentavaksi ensimmäistä kertaa. . Sen painot ovat avoimen lähdekoodin ja kaupallisesti lisensoituja, mikä mahdollistaa synteettisten tietojen luomisen, tislauksen ja mallien hienosäädön.

Tämä on Metan julkaisema todella avoimen rajan LLM. Lisäksi he julkaisivat 92-sivuisen teknisen raportin, joka sisältää paljon mallitietoja: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


Tämän mallijulkaisun taustalla olevaa filosofiaa käsitellään Xiao Zhan pitkässä artikkelissa, joka kannattaa lukea, koska se kattaa hyvin kaikki avoimen tekoälyn ekosysteemin maailmankuvaa tukevat tärkeimmät näkemykset ja argumentit:

Avoimen lähdekoodin tekoäly on tulevaisuus.

Olen usein sanonut, että on vielä varhaisia ​​aikoja, kuten 1980-luvulla, että LLM:stä tulee seuraava suuri tietojenkäsittelyn paradigma, ja Meta asettuu selkeästi johtajaksi avoimessa ekosysteemissään.

- Ihmiset kysyvät ja käyttävät RAG:ta näissä malleissa

- Ihmiset hienosäätävät mallia

- Ihmiset tislaavat ne pienemmiksi asiantuntijamalleiksi tiettyjä tehtäviä ja sovelluksia varten

- ihmiset tutkivat sitä, vertailevat sitä, optimoivat sitä

Lisäksi avoin ekosysteemi organisoituu modulaarisesti tuotteiksi, sovelluksiksi ja palveluiksi, ja jokainen osallistuja voi tuoda mukanaan ainutlaatuisen osaamisensa.

Yksi esimerkki on, että tekoälysirua käynnistävä Groq on integroinut Llama 3.1 -mallin, jolla voidaan saavuttaa lähes välitön 8B-mallien päättely.

Karpathy sanoi, että palvelinpaineen vuoksi hän ei näyttänyt pystyvän kokeilemaan Groqissa toimivaa 405B:tä, joka saattaa olla tämän päivän tehokkain ja nopein suuri malli.


Hän odottaa myös, että suljetun lähdekoodin mallit tulevat pian kiinni, ja odottaa sitä innolla.

Metatutkija Tian Yuandong sanoi, että uusi aikakausi on alkanut! Avoimen lähdekoodin LLM on nyt sama/parempi kuin suljetun lähdekoodin LLM!


Uusi avoimen lähdekoodin mallien kuningas on syntynyt.


Testattuaan hienosäädettyä Llama 3.1 8B:tä OpenPipen perustaja sanoi liikuttuneena: Näin pientä ja tehokasta avoimen lähdekoodin mallia ei ole koskaan ollut - se toimii paremmin kuin GPT-4o mini jokaisessa tehtävässä!



NVIDIAn vanhempi tutkija Jim Fan sanoi, että GPT-4:n voima on käsissämme. Tämä on historiallinen hetki.


Harvat ihmiset kiinnittävät huomiota tekoälymallikoulutuksen takana olevaan infrastruktuuriin, Pytorchin isä Soumith Chintala nousi ja sanoi, että 16 000 GPU:lla rakennetussa laitoksessa tulee myös vikoja.

Nämä yksityiskohdat on piilotettu Llama 3.1 -paperiin, mukaan lukien kuinka rinnakkaista ja ylläpitää järjestelmän luotettavuutta. On syytä mainita, että Meta-tiimi saavutti mallikoulutuksessa 90 % tehokkaan harjoitteluajan.



Jotkut nettimiehet ovat tarkentaneet, että Llama-mallin iteraatioprosessin aikana myös GPU:n käyttö lisääntyy.

Llama 1: 2048 GPU:ta

Llama 2: 4096 GPU:ta

Llama 3.1: 16384 GPU:ta (Itse asiassa Llama 3 on koulutettu kahdessa klusterissa, joissa on 24 000 GPU:ta)

Laama 4:......


Tehokkain avoimen lähdekoodin malliperhe

Itse asiassa joitain avainkohtia Llama 3.1 -sarjan malleista pilattiin eilen.

Kuten vuotaneissa tiedoissa todetaan, Llama 3.1 tukee 8 kieltä (englanti, saksa, ranska, italia, portugali, hindi, espanja ja thai), monikielisiä keskusteluagentteja, käännösten käyttötapauksia jne.

Kontekstin pituuden suhteen Llama 2:een ja Llama 3:een verrattuna kaikki Llama 3.1 -sarjan mallien kontekstit ovat kasvaneet 16-kertaisesti 128 000:aan.


Meta korosti, että Llama 3.1:tä on parannettu myös työkalujen käytössä, ja se tukee nollasta työkalujen käyttöä, mukaan lukien verkkohaku, matemaattiset operaatiot ja koodin suorittaminen.

Pitkän kontekstin perusteella malli ei vain tiedä milloin työkalua tulee käyttää, vaan myös miten sitä käytetään ja miten tuloksia tulkitaan.

Lisäksi hienosäädön ansiosta Llama 3.1 tarjoaa suuren joustavuuden mukautettujen työkalujen kutsumisessa.


Tärkeimmät kyvyt

Ensinnäkin Llama 3.1 voi toimia järjestelmänä, joka pystyy suorittamaan "agenttitehtäviä":

- Erittele tehtäviä ja suorita monivaiheinen päättely

- käyttää työkaluja

- Sisäänrakennetut työkalut: malleissa on omat työkalut, kuten haku- tai kooditulkit

- Zero-shot-oppiminen: malli voi oppia kutsumaan työkaluja kontekstuaalisten työkalumääritelmien avulla, joita se ei ole ennen nähnyt

Esimerkiksi kysymällä mallilta: "Tämä on CSV-tiedosto, voitko kuvailla, mitä siinä on?"

Se tunnistaa seuraavat seikat: Tämä CSV-tiedosto sisältää kuukausittaiset inflaatioluvut useilta vuosilta, ja vuosisarakkeessa näkyy vuosi jokaiselle kuukausiinflaatiotasolle.


Seuraavaksi voimme pyytää sitä piirtämään kaavion ajan kuluessa.


Seuraavaksi se voi myös suorittaa useita hankalia tehtäviä, kuten piirtää S&P500:n trendin samalle kaaviolle.


Kun olet valmis, voit muuttaa kaavion kokoa lisätäksesi tietoja eri akseleille.


Kuten yllä näkyy, Llama 3.1 tukee 8 kieltä, joten se pystyy kääntämään monikielisiä.

Voimme saada sen kääntämään satu Hansel ja Kerttu (Karkkitalo) espanjaksi.


Jopa monimutkaisempien päättelykysymyksien edessä Llama 3.1 voi helposti voittaa.

"Minulla on 3 paitaa, 5 paria shortseja ja 1 mekko. Olen lähdössä 10 päivän matkalle. Riittääkö nämä vaatteet lomalleni?"

Tekoäly hajottaa tunnetut olosuhteet, kuvittelee järkevän sovitussuunnitelman toppeja, shortseja ja hameita varten ja ehdottaa, että on parasta tuoda lisää toppeja.


Päätelmän valmistuttua se tarjosi meille myös harkitusti tarkemman matkapukeutumisoppaan ja matkatavaraluettelon.


Voimme myös antaa tekoälyn kirjoittaa käsin koodin.

Antaa sen esimerkiksi luoda ohjelman, joka käyttää rekursiivista backtracking-algoritmia tai syvyys-ensimmäistä hakualgoritmia luodakseen täydellisen sokkelon, jonka koko ja monimutkaisuus ovat mukautettavat.

Heti kun tekoäly käynnistyi, se tuli ulos sokkeloohjelman Python-koodista.


Kun koodi on valmis, tekoäly antaa myös yksityiskohtaisen selityksen.


Seuraavaksi, jos haluamme mukauttaa ohjelmaa, AI-koodiavustaja tarjoaa meille vastaavia koodiehdotuksia - leveyden ja korkeuden säätämiseksi.


Arvioinnin tulokset

Llama3.1:n suorituskyvyn arvioimiseksi Meta ei vain sisällyttänyt testiin 150 vertailutietojoukkoa, jotka kattavat useita kieliä, vaan myös vertaili sitä todellisissa skenaarioissa.

Monissa tehtävissä 405B voi kilpailla johtavien suljetun lähdekoodin mallien kanssa, kuten GPT-4, GPT-4o ja Claude 3.5 Sonnet.


Pienet 8B- ja 70B-mallit suoriutuivat hyvin myös suljetun lähdekoodin ja avoimen lähdekoodin malleissa samanlaisilla parametrimäärillä.

Pitkien kontekstitehtävien lisäksi 8B- ja 70B-mallit saavuttivat SOTA:n yleistehtävissä, koodauksessa, matematiikassa, päättelyssä, työkalujen käytössä ja useissa kielissä.


Ihmisarvioinnissa Llama 3.1 405B -malli on GPT-4:n tasolla, mutta hieman huonompi kuin GPT-4o.

Claude 3.5 Sonnetiin verrattuna suurella 405B-mallilla on kuitenkin etu, jonka voittoprosentti on 24,9 %.


Lisäksi Scalen rankingissa Llama 3.1 405B:n hienosäädetty versio murskasi Claude 3.5 Sonnetin ja GPT-4o:n arvioinnin jälkeisessä ohjeessa.

Matemaattisissa tehtävissä 405B sijoittui toiseksi Claude 3.5 Sonnetin jälkeen. Llama 3.1 sai kuitenkin suhteellisen alhaiset pisteet koodaustehtävissä.


92-sivuinen erittäin yksityiskohtainen tekninen raportti

Kukaan ei voi avata lähdekoodia niin perusteellisesti kuin Meta. Myös 92-sivuinen tekninen raportti julkaistaan ​​tänään.


Paperin osoite: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Artikkelissa ehdotetaan, että Llama 3.1, korkealaatuinen perusmalli, sisältää kolme avainvipua: datan, mittakaavan ja monimutkaisuuden hallinta.

Datan suhteen Llama 3.1:n datan kokonaismäärää ja laatua on parannettu edelliseen sukupolveen verrattuna, kuten tarkempi esikäsittely- ja hallintaprosessit esikoulutusta varten sekä tiukemmat laadunvarmistus- ja suodatusmenetelmät koulutuksen jälkeen. tiedot.

Llama 2 harjoitteli vain 1,8 T:n tunnuksen dataa, kun taas Llama 3.1:n monikielinen esikoulutuskorpus saavutti 15,6 T tokenin, mikä on yli 8-kertainen kasvu.

Mittakaavaltaan Llama 3.1:n koulutuksessa käytetään yli 16 000 NVIDIA H100 GPU:ta ja kokonaislaskennan määrä on 3.8e25 FLOPS, mikä on lähes 50-kertainen Llama 2:een verrattuna.

"Skaalaamisen parantamiseksi" asiakirjassa ehdotetaan erityisesti "monimutkaisuuden hallintaa". Mallin arkkitehtuuria ja algoritmeja valittaessa on kiinnitettävä enemmän huomiota niiden vakauteen ja skaalautumiseen.

On syytä huomata, että Llama 3.1 ei käytä suosituinta MoE-arkkitehtuuria, vaan vain dekooderin arkkitehtuuria. Vain alkuperäistä Transformer-arkkitehtuuria on muokattu ja säädetty maksimoimaan harjoituksen vakaus.

Samanlaisia ​​lähestymistapoja ovat yksinkertaisten koulutuksen jälkeisten prosessien, kuten SFT, RS ja DPO, käyttö monimutkaisempien vahvistusoppimisalgoritmien sijaan.

Monien suurten mallien tapaan Llama 3:n kehitys sisältää pääasiassa kaksi vaihetta: esi- ja jälkiharjoittelu.

Esiharjoittelun aikana "seuraavan tunnuksen ennustamista" käytetään myös harjoitustavoitteena. Ensin kontekstiikkuna asetetaan arvoon 8K ja laajennetaan sitten 128K:ksi esiharjoitteluvaiheessa.

Harjoittelun jälkeinen vaihe parantaa mallia useiden iteratiivisten ihmisten palautekierrosten avulla, mikä parantaa merkittävästi koodaus- ja päättelykykyä ja integroi työkalujen käyttöominaisuudet.

Lisäksi paperissa yritetään käyttää kolmea lisävaihetta lisätäkseen Llama 3.1:een multimodaalisia toimintoja, kuten kuvia, videoita ja ääniä:

- Multimodaalisen kooderin esikoulutus: Kuva- ja puheenkooderit koulutetaan erikseen. Ensiksi mainitun esiopetusdata on kuva-teksti-pareja, kun taas jälkimmäinen käyttää itsevalvottua menetelmää, jolla yritetään rekonstruoida laitteen peitetyt osat. puhe diskretisoidun osan kautta.

- Vision-sovitin: koostuu sarjasta ristiin huomioivia kerroksia, jotka syöttävät esitykset kuvankoodereista valmiiksi koulutettuihin kielimalleihin. Kuvien perusteella lehti yritti myös kouluttaa videosovitinta video-teksti-pareille.

- Puhesovitin: yhdistää puheenkooderit ja kielimallit sekä integroi tekstistä puheeksi -järjestelmät.


Valitettavasti edellä mainitut multimodaaliset ominaisuudet ovat edelleen kehitteillä, eivätkä ne siksi sisälly äskettäin julkaistuun Llama 3.1:een.

Mallin arkkitehtuuri

Llama 3.1 käyttää edelleen standardinmukaista tiheää Transformeria, eikä arkkitehtuurissa ole merkittävää eroa Llamaan ja Llama 2:een. Suorituskyvyn parannus johtuu pääasiassa koulutusdatan laadun, monimuotoisuuden ja mittakaavan laajentamisesta.


Llama 3:een verrattuna Llama 3.1:n arkkitehtuurissa on seuraavat parannukset:

- Grouped Query Attention (GQA): 8 avainarvootsikon ansiosta se parantaa päättelynopeutta ja vähentää KV-välimuistia dekoodauksen aikana

- Huomiomaski: Estä itsehuomio eri asiakirjojen välillä samassa järjestyksessä.Tällä tekniikalla on rajallinen tehokkuus tavallisessa esiharjoituksessa, mutta se on erittäin tärkeä, kun jatketaan esiharjoitusta erittäin pitkillä jaksoilla.

- 128 000 token-sanasto: mukaan lukien 100 000 tiktokenissa ja 28 000 lisäksi muita kuin englanninkielisiä kieliä varten.Parannettu pakkaussuhde sekä englanniksi että ei-englanniksi verrattuna Llama 2:een

- Aseta RoPEn hyperparametri θ arvoon 500 000: parempi tuki pitkille konteksteille

Mallin tärkeimmät hyperparametrit on esitetty taulukossa 3. Datamäärän ja harjoituslaskentatehon perusteella mallin koko on saavuttanut skaalauslain paljastaman laskentatehon optimoinnin.


Rinnakkaistehokkuus

405B-mallin kouluttaminen 16 000 GPU:lle on jo iso projekti, kun otetaan huomioon rinnakkaisuus ja viankäsittely.

Itse mallin lisäksi artikkelissa selitetään myös koulutusprosessissa käytettävä rinnakkaismalli sekä tallennus-, verkko- ja muu infrastruktuuri.

Llama 3.1:n koulutuksessa käytetään 4D-rinnakkaistekniikkaa (tensori + liukuhihna + konteksti + data) BF16-tarkkuudella GPU-käyttöaste (MFU) on noin 38-41%.


Myös Llama 3.1 -harjoitteluklusterin viankäsittely on erittäin hyvä, saavuttaen yli 90 % tehokkaasta harjoitteluajasta, mutta tämä tarkoittaa silti sitä, että 54 esiharjoittelupäivän aikana tulee vähintään yksi keskeytys joka päivä.

Työssä luetellaan yksityiskohtaisesti kaikkien 419 odottamattoman keskeytyksen syyt (taulukko 5), millä on erittäin tärkeä referenssimerkitys tulevan GPU-klusterin rakentamisen kannalta. Niistä 78 % ongelmista vahvistettiin tai epäiltiin liittyvän laitteistoon.


Koska klusterin automatisoitu käyttö ja ylläpito on suhteellisen valmis, vaikka vikoja on paljon, useimmat niistä voidaan käsitellä automaattisesti. Koko prosessin aikana vain kolme vikaa vaati manuaalisia toimenpiteitä.

Paranna tiettyjen ominaisuuksien suorituskykyä

koodi

Mallin koodauskyvyn parantamiseksi Meta käyttää menetelmiä, kuten koodausasiantuntijoiden kouluttamista, synteettisen SFT-datan generoimista, parannettujen formaattien ohjaamista järjestelmäkehotteiden kautta ja laatusuodattimien luomista (huonojen näytteiden poistaminen opetustiedoista).


Python-koodin (vasemmalla) muuntaminen PHP-koodiksi (oikealla) Llama 3:lla täydentämään SFT-tietojoukkoa useammilla ohjelmointikielillä


Paranna koodin laatua järjestelmän parannuksilla.Vasen: Ei järjestelmäkehotetta Oikealla: Järjestelmäkehote.

monikielinen

Parantaakseen Llama 3:n monikielisiä ominaisuuksia Meta koulutti erityisesti asiantuntijan, joka pystyy käsittelemään enemmän monikielistä dataa saadakseen ja tuottaakseen korkealaatuista monikielisten ohjeiden hienosäätödataa (kuten saksa, ranska, italia, portugali, hindi (englanti, espanja ja thai) ja käsittelevät monikielisen perehdyttämisen erityishaasteita.


matemaattinen päättely

Matemaattisessa päättelyssä hyvät koulutusmallit kohtaavat useita haasteita, kuten vihjeiden puute, todellisen CoT:n puute, väärät välivaiheet, tarve opettaa malli käyttämään ulkoisia työkaluja, koulutuksen ja päättelyn ero jne.

Tätä tarkoitusta varten Meta ottaa käyttöön seuraavat menetelmät: riittämättömien vihjeiden ongelman ratkaiseminen, vaiheittaisen päättelyprosessin tehostaminen koulutustiedoissa, väärän päättelyprosessin suodattaminen, koodin ja tekstin päättelyn yhdistäminen sekä palautteesta ja virheistä oppiminen.


pitkä konteksti

Viimeisessä esikoulutusvaiheessa Meta laajentaa Llama 3:n kontekstin pituuden 8K-tokeneista 128K:aan.

Käytännössä ryhmä havaitsi, että vain lyhyen kontekstitietojen käyttäminen SFT:lle johtaisi mallin pitkän kontekstin kykyjen huomattavaan heikkenemiseen, ja pitkien kontekstien lukeminen on erittäin työlästä ja aikaa vievää, joten ihmisten on epäkäytännöllistä merkitä tällaisia ​​esimerkkejä.

Siksi Meta valitsi synteettisen datan täyttääkseen tämän aukon.

Käyttämällä Llama 3:n varhaista versiota he tuottivat synteettistä dataa, joka perustui keskeisiin pitkän kontekstin käyttötapauksiin: (useita kierroksia) kysymyksiin vastaaminen, pitkä asiakirjan yhteenveto, koodipohjan päättely.

Työkalun käyttö

Meta koulutti Llama 3:n olemaan vuorovaikutuksessa hakukoneiden, Python-tulkkien ja matemaattisten laskentakoneiden kanssa.

Kehitysprosessin aikana, kun Llama 3:a parannettiin vähitellen, Meta monimutkaisi myös manuaalista merkintäprotokollaa vähitellen. Aloita yhden kierroksen työkalun käytön huomautuksella, siirry työkalun käyttöön keskusteluissa ja lopeta monivaiheisen työkalun käytön ja data-analyysin huomautuksiin.


Llama 3 suorittaa monivaiheisen suunnittelun, päättelyn ja työkalun kutsumisen tehtävien ratkaisemiseksi


Pyydä mallia toimitetun tiedoston perusteella tiivistämään tiedoston sisältö, etsimään ja korjaamaan virheet, optimoimaan koodin, suorittamaan data-analyysin tai visualisoinnin jne.

tosiasiallinen

Hallusinaatio-ongelmaan, joka on LLM:n tunnustettu haaste, Meta ottaa hallusinaatiot ensin -lähestymistavan.

He noudattavat periaatetta, että koulutuksen jälkeen mallin tulisi "tietää, mitä se tietää" sen sijaan, että lisäisi tietoa.

Ohjattavuus

Llama 3:ssa Meta parantaa ohjattavuutta järjestelmäkehotteilla, joissa on luonnollisen kielen ohjeita, erityisesti vastauksen pituuden, muodon, sävyn ja persoonallisuuden/persoonallisuuden osalta.


"Olet avulias, iloinen AI-chatbot, joka toimii ateriasuunnitteluavustajana kiireisille perheille."

tiimin jäsen

Llama 3:n tiimin voidaan sanoa olevan erittäin suuri, ja sillä on lähes 220 ydinjäsentä yksin ja 312 muuta avustajaa.




Xiao Zha: Avoimen lähdekoodin tekoäly on tulevaisuus

Kuten me kaikki tiedämme, Xiao Zha on aina ollut avoimen lähdekoodin tekoälyn uskollinen kannattaja.

Tällä kertaa se ei ole vain niin yksinkertaista kuin uuden ja vahvimman mallin julkaiseminen, vaan myös lupaus tuoda avoimen lähdekoodin tekoäly etualalle.


Blogissaan Xiao Zha otti suoraan oppia historiasta. Aikaisemmin suuret teknologiayritykset investoivat voimakkaasti suljetun lähdekoodin Unix-versioiden kehittämiseen.

Unix-taistelukentällä taistellaan kiivaasti, mutta se, joka nauraa viimeisenä, on avoimen lähdekoodin Linux.


Alun perin kehittäjät suosivat Linuxia, koska se antoi kehittäjille mahdollisuuden muokata koodia halutessaan ja se oli edullisempi.

Mutta ajan myötä siitä tuli kehittyneempi, turvallisempi ja laajemman ekosysteemin tukema enemmän toimintoja kuin mikään suljettu Unix.

Nykyään Linux on pilvipalveluiden ja useimpien mobiililaitteiden käyttöjärjestelmien alan standardi, ja kaikki hyötyvät.

Xiao Zha uskoo, että myös tekoälyn kehityspolku on sama, ja hän osoittaa sormella "useiden teknologiayritysten" suljetun lähdekoodin mallia.


"Tänään useat teknologiayritykset kehittävät johtavia suljettuja malleja, mutta avoin lähdekoodi umpeutuu nopeasti."

Xiao Zhan uskallusta nimetä se on luonnollisesti hänen vahvuutensa rohkaisevaa. Viime vuonna Llama 2 jäi vielä jälkeen huippuluokan vanhan sukupolven mallista.

Tänä vuonna Llama 3 voi kilpailla muiden jättimäisten mallien kanssa suorituskyvyltään.

Llama 3.1 405B on ensimmäinen huippuluokan avoimen lähdekoodin tekoälymalli. Sen lisäksi, että 405B-malli on huomattavasti parempi hinta/suorituskykysuhde, se on avoimuus, mikä tekee siitä parhaan vaihtoehdon pienten mallien hienosäätöön ja tislaamiseen.

Miksi avoimen lähdekoodin tekoäly on hyvä kehittäjille?

Kehittäjille avoimen lähdekoodin mallissa pitämisellä on viisi suurta etua:

Ensinnäkin avoimen lähdekoodin mallien avulla kehittäjät voivat vapaasti kouluttaa, hienosäätää ja tislata omia mallejaan.

Jokaisen kehittäjän tarpeet ovat erilaisia, sillä laitteessa tehtävät ja luokitustehtävät vaativat pieniä malleja, kun taas monimutkaisemmat tehtävät vaativat suuria malleja.

Hyödyntämällä huippuluokan avoimen lähdekoodin malleja, kehittäjät voivat jatkaa harjoittelua omilla tiedoillaan, jotka on tislattu ihanteelliseen kokoon.

Toiseksi voit välttää yhden toimittajan rajoittamisen.

Kehittäjät eivät halua luottaa malliin, jota he eivät voi käyttää ja hallita, eivätkä he halua toimittajien muuttavan mallia, käyttöehtoja tai jopa lopettavan palvelun kokonaan.

Ja avoimen lähdekoodin avulla malleja voidaan helposti vaihtaa ja ottaa käyttöön, mikä luo laajan ekosysteemin.

Kolmanneksi suojaa tietoturva.

Kehittäjien on varmistettava tietojen turvallisuus käsitellessään arkaluonteista dataa, mikä edellyttää, että he eivät voi lähettää niitä suljetun lähdekoodin malleihin API:iden kautta.

Tiedetään, että avoimen lähdekoodin ohjelmistot ovat yleensä turvallisempia läpinäkyvämmän kehitysprosessin ansiosta.

Neljänneksi se toimii tehokkaasti ja edullisemmin.

Llama 3.1 405B:tä käyttävien kehittäjien päättelykustannukset ovat vain puolet GPT-4o:n hinnasta riippumatta siitä, onko kyseessä käyttäjäpuolen tai offline-päättelytehtäviä.

Viidenneksi, pitkän aikavälin näkökulmasta avoimesta lähdekoodista tulee alan laajuinen standardi.

Itse asiassa avoin lähdekoodi kehittyy nopeammin kuin suljetun lähdekoodin mallit, ja kehittäjät haluavat pystyä rakentamaan järjestelmänsä arkkitehtuureille, joilla on pitkän aikavälin etuja.

Xiao Zhan näkemyksen mukaan Llama 3.1:n julkaisusta tulee käännekohta alalla, mikä tekee avoimesta lähdekoodista yhä pysäyttämättömämmän.

Viitteet:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32