uutiset

Tehokkaimmasta avoimen lähdekoodin suuresta mallista tuli jumala yhdessä yössä! Llama 3.1 julkaistaan ​​järkyttävästi, todella universaalin GPT-4:n aikakausi on täällä

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


älykkäitä asioita
Kirjoittaja: Zhi Dongxi Toimitusosasto

Zhidongxi raportoi 24. heinäkuuta, että eilen illalla Meta ilmoitti lanseeraavansa tähän mennessä tehokkaimman avoimen lähdekoodin mallin.Laama 3.1 405B, julkaisi myös äskettäin päivitetyt Llama 3.1 70B- ja 8B -mallit.

Llama 3.1 405B tukee kontekstin pituutta128K Tokeneja, perustuen15 biljoonaa TokeniaYli 16 000 H100 GPU:taTämä on ensimmäinen laamamalli, jonka Meta on koskaan harjoitellut tässä mittakaavassa.

Tutkijoiden yli 150 vertailutestisarjaan perustuvat arviointitulokset osoittavat, ettäLlama 3.1 405B toimii GPT-4o:n kanssa, Claude 3.5 Sonnet ja Gemini Ultra ja muut alan päämallit.


Sen vahvan suorituskyvyn lisäksi Metan perustaja ja toimitusjohtaja Mark Zuckerberg julkaisi myös henkilökohtaisesti hänen tukensa. Hän sanoi, että sen lisäksi, että kustannukset ja suorituskyky ovat paremmat kuin suljetun lähdekoodin malleissa,405B avoimen lähdekoodin mallista tulee paras valinta yrityksille pienempien mallien hienosäätöön ja kouluttamiseen

Meta AI ilmoitti pääsystä Llama 3.1 405B:hen ja lanseerasi uusia toimintoja, kuten tekoälyn kuvankäsittelyn, tekoälyohjelmoinnin ja VR/AR-laitteiden älykkäät avustajat. Zuckerberg ennusti,Meta AI -avustajan käyttö ylittää ChatGPT:n muutamassa kuukaudessa


▲Meta AI tukee reaaliaikaista ääni- ja videovuorovaikutusta Quest-kuulokkeiden ja käyttäjien välillä

Myös Metan avoimen lähdekoodin ekosysteemi on valmis. Meta jaYli 25 yhteistyökumppaniaLlama 3.1 -malleja tulee saataville, mukaan lukien Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure ja Google Cloud.

Tähän mennessä kaikkien Llama-malliversioiden kokonaislataukset ovat ylittäneet300 miljoonaa kertaa, Llama 3.1 -mallin julkaisu, joka vastaa valtavirran suljetun lähdekoodin mallia, saattaa tarkoittaa, että avoimen lähdekoodin mallitarina, jonka Meta haluaa kertoa, on juuri alkanut...


Mallin latauslinkki:

https://llama.meta.com/

https://huggingface.co/meta-llama

Paperinen linkki:

https://t.co/IZqC6DJkaq


▲ Tiivistelmä Meta Llama 3.1 -mallipaperin tulkinnasta

1. 405B avoimen lähdekoodin mallia verrataan GPT-4o:han, ja 25 kumppania on valmiina

Meta arvioi yli 150 vertailutietojoukon suorituskyvyn ja havaitsi, että Llama 3.1 405B on verrattavissa GPT-4o:han, Claude 3.5 Sonnetiin ja Gemini Ultraan useissa tehtävissä, kuten terve järki, käytettävyys, matematiikka, työkalujen käyttö ja monikielinen käännös .


Tosielämän skenaariossa Llama 3.1 405B:tä verrattiin ihmisen arviointiin ja siihenKokonaissuorituskyky on parempi kuin GPT-4o ja Claude 3.5 Sonnet


päivitettyLaama 3.1 8B ja 70BMallit toimivat myös paremmin kuin saman parametrikoon mallit. Nämä pienemmät parametrimallit tukevat samaa 128K Tokens -kontekstiikkunaa, useampaa kieltä, parannettua päättelyä ja huippuluokan työkalujen käyttöä kehittyneempien sovellusten tukemiseen.


Meta on päivittänyt lisenssinsä, jotta kehittäjät voivat ensimmäistä kertaa käyttää Llama-mallin, mukaan lukien 405B-parametriasteikon, tuloksia muiden mallien parantamiseen.

Samaan aikaan Metan avoimen lähdekoodin ekosysteemi on laajentunut entisestään, ja yli 25 yritystä on julkaissut uuden Llama 3.1 -mallin.

sisään,Amazon Cloud Technology, Databricks ja Nvidia Täysi palvelupaketti otetaan käyttöön kehittäjien tukemiseksi omien malliensa hienosäädössä ja koulutuksessa. Tekoälypiirin startup Groq ja muut ovat rakentaneet matalan latenssin ja edullisia päättelypalveluita kaikille Metan tällä kertaa julkaisemille uusille malleille.

Samalla nämä mallit ovatAmazon Cloud Technology, Microsoft Azure, Google Cloud, OracleTarjoa palveluita suurilla pilvialustoilla.

Scale AI, Dell, DeloitteLlaman kaltaiset yritykset ovat valmiita auttamaan yrityksiä ottamaan käyttöön Llama-malleja ja kouluttamaan mukautettuja malleja omien tietojensa avulla.

Llama 3.1 405B ei ole vain vahvin avoimen lähdekoodin malli, vaan siitä odotetaan myös olevan vahvin. Avoimen lähdekoodin ja suljetun lähdekoodin välinen etäisyys on jälleen lyhentynyt.

2. Optimoi koulutuspino kokonaan ja keskity mallin skaalautumiseen

Voidakseen kouluttaa 15 biljoonaan Tokeniin perustuvia malleja ja saavuttaa tutkijoiden toivomat tulokset kohtuullisessa ajassa, Meta on optimoinut koulutuspinon täysin.


Vastatakseen yllä oleviin haasteisiin Meta on päättänyt keskittyä strategioihin, jotka pitävät mallinkehitysprosessin skaalautuvana ja yksinkertaisempana:

1. Tutkijat valitsivatTavallinen vain dekooderi MuuntajamalliarkkitehtuuriPienten säätöjen tekeminen MoE hybridiasiantuntijamallin sijaan voi maksimoida harjoittelun vakauden.

2. Tutkijat käyttivätIteratiivinen harjoituksen jälkeinen menettely , käyttämällä valvottua hienosäätöä ja suoraa mieltymysten optimointia jokaisella kierroksella. Tämä antaa mallille mahdollisuuden luoda korkealaatuisinta synteettistä dataa jokaiselle kierrokselle ja parantaa suorituskykyä kaikilla ominaisuuksilla.

Verrattuna aikaisempiin Llama-sarjan malleihin Meta parantaa esi- ja jälkiharjoituksissa käytettävän datan määrää ja laatua.Näitä parannuksia ovat mmKehitä huolellisempia esikäsittely- ja hallintaputkia koulutusta edeltäville tiedoille, kehitä tiukempaa laadunvarmistusta ja suodatusmenetelmiä koulutuksen jälkeisille tiedoille

Kuten suurten kielimallien skaalauslakeista on odotettavissa, Metan uusi lippulaivamalli ylittää pienet, samalla strategialla koulutetut mallit. Meta paransi myös pienempien malliensa harjoittelun laatua käyttämällä mallia 405B-parametreilla.

Samaan aikaan, tukeakseen laajamittaista 405B-parametrimallin päättelyä, tutkijat kvantisoivat mallin BF16:sta FP8:aan, mikä vähentää tehokkaasti vaadittuja laskentavaatimuksia ja salli mallin toimia yhdessä palvelinsolmussa.

Opetuksen ja chatin hienosäädön osalta tutkijat loivat lopullisen mallin suorittamalla useita kohdistuskierroksia esikoulutetun mallin päälle, ja jokainen kierros sisälsi valvotun hienosäädön (SFT), hylkäysnäytteenoton (RS) ja Suora preferenssioptimointi (DPO) Suurin osa SFT-esimerkeistä on luotu käyttämällä synteettistä tiedontuotantoa korkealaatuisemman synteettisen tiedon tuottamiseksi kaikissa toiminnoissa.

Lisäksi Meta käyttää useita tietojenkäsittelytekniikoita suodattaakseen nämä synteettiset tiedot korkeimpaan laatuun, mikä mahdollistaa uusien mallien hienosäätää tietomääriä toiminnallisen skaalautuvuuden välillä.

Datapuolella tutkijat myös tasapainottivat tiedot huolellisesti tuottaakseen korkealaatuisia malleja kaikilla ominaisuuksilla. Esimerkiksi mallin laadun säilyttäminen lyhyiden kontekstien vertailuarvoissa mahdollistaa sen skaalauksen 128 000 kontekstin pituuteen.

Lisäksi Meta ilmoitti myös haalarin lanseeraamisestaLaama järjestelmä . Sen lisäksi, että järjestelmä kattaa Llama-mallin, se sisältää myös useiden komponenttien koordinoinnin ja ulkoiset työkalukutsut, jotka auttavat kehittäjiä kehittämään räätälöityjä tuotteita, jotka ovat vahvempia kuin perusmalli.

Llama-järjestelmä kattaa joukon uusia komponentteja, mukaan lukien avoimen lähdekoodin uudetturvatyökalut Kuten Llama Guard 3 (monikielinen suojausmalli) ja Prompt Guard (välitön ruiskutussuodatin). Erilaisten komponenttien yhdistämiseksi Meta on myös pyytänyt kommentteja Llama Stack API:sta, vakiorajapinnasta, joka helpottaa kolmansien osapuolien projektien hyödyntämistä Llama-mallissa.

Tavallisille kehittäjille 405B mittakaavan mallien käyttö on edelleen haaste, joka vaatii paljon laskentaresursseja ja asiantuntemusta.

Llama-järjestelmään perustuva generatiivinen tekoälykehitys ei tarkoita vain mallien kehottamista. Kaikkien pitäisi pystyä käyttämään 405B-mallia useiden tehtävien suorittamiseen, mukaan lukien reaaliaikainen ja eräpäättely, valvottu hienosäätö, mallien arviointi tietyille sovelluksille, jatkuva. esikoulutus ja hakutehostettu generointi (RAG), toimintokutsut, synteettisten tietojen luominen jne.

Tämä on suurin Metan tähän mennessä lanseeraama malli, ja tulevaisuudessa julkaistaan ​​laiteystävällisempiä kokoja, enemmän tiloja ja päivityksiä agenttitasolla.

kolme,405B iso malli räjähtävä modifikaatioMeta AI, Quest älykäs ääniavustajapäivitys

Nyt useita Metan omistamia päätteitä, kutenWhatsApp ja Meta AI chatbotZhongdu aloitti Llama 3.1 405B:n käytön.


Meta AI tukee tällä hetkellä seitsemää uutta kieltä. Tällä kertaa Meta lanseeraa joukon uusia luovia Meta AI -työkaluja, jotka keskittyvät pääasiassa visuaaliseen luomiseen, matematiikkaan ja koodaukseen.

Ensimmäinen katsaus visuaaliseen sukupolveen, Meta AI julkaistaan"Imagine Me" -kuvien luomiskehotetoiminto, jonka avulla käyttäjät voivat kirjoittaa "kuvittele minut" Meta AI -chatiin ja lisätä kehotteita, kuten "kuvittele minut kuninkaallisena" tai "kuvittele minut surrealistisessa maalauksessa", kuvien luomiseksi ja jakamiseksi ystävien ja perheen kanssa.


Meta AI tulee olemaan verkossa"Muokkaa tekoälyllä" -ominaisuuden avulla käyttäjät voivat helposti lisätä tai poistaa kohteita hiiren napsautuksella tai muuttaa ja muokata niitä pitäen muun kuvan ennallaan, kuten "Change Cat to Corgi". Meta AI tukee myös uusien kuvien lisäämistä Facebook-postauksiin sekä sosiaalisiin alustoihin, kuten Instagram, Messenger ja WhatsApp.


Matematiikassa ja ohjelmoinnissa käyttäjät voivat saada apua matemaattisissa tehtävissä vaiheittaisten selitysten ja palautteen avulla, kirjoittaa koodia nopeammin virheenkorjaustuen ja optimointiehdotusten avulla ja hallita monimutkaisia ​​teknisiä ja tieteellisiä käsitteitä asiantuntijan ohjauksella.


Käyttäjät voivat yhdistää Meta AI:n koodausosaamisen ja kuvien luontiominaisuudet rakentaakseen uusia pelejä tyhjästä tai uusia klassisia pelejä. Kestää vain muutaman minuutin muuttaa fantastiset ideasi todeksi ja jopa antaa käyttäjien esikatsella peliä suoraan.

On syytä mainita, että Meta AI sopii myösRay-Ban Meta älylasit , ja se julkaistaan ​​kokeellisessa tilassa Meta Questissä Yhdysvalloissa ja Kanadassa ensi kuussa. Meta AI korvaa Questin nykyiset äänikomennot, jolloin käyttäjät voivat ohjata kuulokkeita handsfree-tilassa, saada vastauksia kysymyksiin, pysyä ajan tasalla reaaliaikaisista tiedoista, tarkistaa sään ja paljon muuta.

Käyttäjät voivat myös käyttää Meta AI:tä kuulokkeissa näkemiensä näkymien kanssa, kuten kysyä heiltä asioita, joita he näkevät fyysisessä ympäristössä.

4. Zuckerbergin avoin kirje: Avoin lähdekoodi on parempi kehittäjille, Metalle ja maailmalle

Llama 3.1 -sarja on juuri julkaistu, ja samaan aikaan Zuckerbergin pitkä blogi on julkaistu virallisilla verkkosivuilla, mikä tekee ruudin tuoksusta avoimen ja suljetun lähdekoodin mallien välillä entistä voimakkaampaa.


▲ Kuvakaappaus osasta Zuckerbergin avointa kirjettä

Alussa Zuckerberg mainitsi, että avoimen lähdekoodin ja suljetun lähdekoodin mallien välinen kuilu on vähitellen umpeutumassa. Viime vuonna Llama 2 oli vain edellisen sukupolven edistyneimmän suljetun lähdekoodin mallin tasolla. Tänä vuonna Llama 3 on edistyneimpien mallien tasolla ja johtaa joillakin alueilla.

Ensi vuodesta alkaen hän odottaa Llama-mallin olevan alan edistynein . Ja nykyiset Llama-sarjan mallit ovat jo johtavassa asemassa avoimuuden, muunnettavuuden ja kustannustehokkuuden suhteen.

Blogissaan hän osoitti suoraan suljetun lähdekoodin mallia ja vastasi kolmeen suureen kysymykseen: miksi avoimen lähdekoodin tekoäly on hyvä kehittäjille, miksi avoimen lähdekoodin tekoäly on hyvä Metalle ja miksi avoimen lähdekoodin tekoäly on hyväksi maailmalle.

Ensinnäkin, miksi avoimen lähdekoodin tekoäly on hyvä kehittäjille?

Hän uskoo, että kehittäjien on koulutettava ja hienosäädettävä omia mallejaan vastaamaan erityistarpeisiinsa malli, joka on halpa käyttää, kehittäjät haluavat investoida ekosysteemiin, josta tulee pitkän aikavälin standardi.

Avoimen lähdekoodin tekoälyn etuna Metalle on se, että Metan liiketoimintamallina on rakentaa ihmisille parhaat kokemukset ja palvelut Tätä varten hän uskoo, että sillä on aina pääsy parhaimpaan teknologiaan, eikä se joudu suljettuun kilpailijoiden ekosysteemi.

Samaan aikaan avoimen lähdekoodin tekoäly rohkaisee Metaa kehittämään Llamaa täydelliseksi ekosysteemiksi, josta voi tulla alan standardi.

Hän mainitsi myös, että yksi keskeisistä eroista Metan ja suljetun lähdekoodin mallipelaajien välillä on se, että tekoälymallien käyttöoikeuden myynti ei ole Metan liiketoimintamalli, mikä tarkoittaa, että avoin lähdekoodi ei leikkaa sen tuloja, kestävyyttä tai jatkuvia investointeja tutkimukseen .

Lopuksi Metalla on pitkä historia avoimen lähdekoodin projekteista ja menestyksestä.

Keskustelusta avoimen lähdekoodin tekoälymallien turvallisuudesta Zuckerbergillä on tämä sanottavaAvoimen lähdekoodin tekoäly on turvallisempi kuin muut vaihtoehdot . Hän uskoo avoimen lähdekoodin varmistavan, että yhä useammat ihmiset ympäri maailmaa voivat nauttia tekoälyn tuomista eduista ja mahdollisuuksista, että valta ei keskity muutaman yrityksen käsiin ja että teknologiaa voidaan soveltaa tasaisemmin ja turvallisemmin koko yhteiskunnassa.

Johtopäätös: Meta on ottanut uuden askeleen, ja keskustelu suurten mallien avoimista ja suljetuista lähteistä on muuttunut.

Taistelu avoimen ja suljetun lähdekoodin suurten mallien välillä jatkuu...

Meta Llama 3.1 -mallisarjan julkaisusta voidaan nähdä, että kuilu suurten avoimen lähdekoodin ja suljetun lähdekoodin mallien välillä on kaventumassa ja taipumus pysyä toistensa tahdissa ja kiinni toisiaan . Avoimen lähdekoodin suuren mallileirin uskollisena kannattajana ja teknologisen innovaation edelläkävijänä Meta on päättänyt rakentaa oman avoimen lähdekoodin ekosysteeminsä Llama-mallisarjan julkaisusta lähtien. Samaan aikaan verrattuna edelliseen Llama-malliin tämä uusi mallijulkaisu Meta rakentaa myös sisäisen tiimin, jotta mahdollisimman monet kehittäjät ja kumppanit voivat käyttää Llama-sarjaa.

Meta on tehnyt uuden liikkeen, mikä tekee avoimen lähdekoodin ja suljetun lähdekoodin mallikeskustelun päätöksestä entistä hämmentävämmän. Mutta viime kädessä todellisissa sovelluksissa monet yritykset ja kehittäjät valitsevat avoimen lähdekoodin tai suljetun lähdekoodin mallien erityistarpeiden ja tilanteiden mukaan. Siksi mallin erityisominaisuuksien ja sen soveltuvien todellisten ominaisuuksien osoittaminen vie aikaa. elämän skenaarioita.