avoimen lähdekoodin suurten mallien uusi kuningas on kumonnut gpt4o:n, uusi tekniikka pystyy korjaamaan itsensä ja mathematics 99.2 on täyttänyt testijoukon.

2024-09-06

länsituuli tulee aofein temppelistä
qubits |. julkinen tili qbitai

avoimen lähdekoodin suurten mallien valtaistuin vaihtoi yhtäkkiä omistajaa, ja se tuli pienestä yrittäjätiimistä, joka räjäytti alan välittömästi.

uusi malli on nsheijastus 70b, käyttämällä uutta koulutustekniikkaa, jonka avulla tekoäly oppii korjaamaan omia virheitään ja illuusioitaan päättelyprosessin aikana.

esimerkiksi hiljattain suositussa digitaalisessa r-testissä se teki alussa samat virheet kuin useimmat mallit, mutta se teki aloitteen<reflection>-tunnistezhong korjasi itseään.

virallisessa arvioinnissa 70b-malli ylitti kattavasti vahvimman avoimen lähdekoodin llama 3.1 405b:n, gpt-4o:n, claude 3 opuksen ja gemini 1.5 pron. erityisesti se maksoi suoraan matemaattisen gsm8k:n.tulokset 99,2 %。

tämä tulos sai myös noam brownin, openai-tutkijan ja pokeri-ai:n isän, avaamaan mikrofonin innostuneesti:

gsm8k tulokset 99%! voidaanko tämä vertailuarvo virallisesti poistaa käytöstä?

heti kun malli tuli verkkoon, verkkovierailut hämmästyivät kokeilusta, ja meta tuki myös aktiivisesti lisää laskentatehoa.

netizen-testeissä reflection 70b voi vastata kysymyksiin, joihin gsm8k-tietojoukossa on vääriä vastauksia:

syötin mallille 5 "ground_truth" -ongelmat, jotka ovat olemassa gsm8k:ssa ja jotka ovat luonnostaan virheellisiä.
sen sijaan, että se toistaisi vääriä vastauksia tietojoukossa, malli sai ne kaikki oikein, mikä on vaikuttavaa.osoittaa, että 99,2 %:n tarkkuus ei tule testisarjan muistamisesta！

on helppo laskea kaikenlaiset r:t, jopaluotuja sanojauseat r:t "drirrrrrrrrrrnnnn":ssä voidaan myös laskea oikein.

nettimiehet ovat yllättyneitä siitä, että pienen tiimin tekemä avoin lähdekoodi on ohittanut huippuluokan suljetun lähdekoodin nyt tehokkain avoimen lähdekoodin malli voidaan ajaa paikallisesti.

avain 70b on vasta alkua virkamiehet sanoivat, että ensi viikolla julkaistaan suurempi.heijastus 405b。

405b:n suorituskyvyn odotetaan olevan huomattavasti parempi kuin sonnetin ja gpt-4o:n.

reflection 70b -painot on julkistettu, ja hyperbolic labs tarjoaa api-pääsyn myöhemmin tänään.

mallit voivat reflektoida itseään ja korjata virheitä

lisätietoja tällä hetkellä saatavilla olevista reflection 70b:stä on alla.

avain reflection 70b:n ominaisuuksien parantamiseen on ns. menetelmän käyttöheijastus-viritysharjoitusmenetelmä, jonka avulla malli voi reflektoida luomaansa tekstiä, havaita ja korjata virheet omassa päättelyssään ennen vastauksen viimeistelyä.

harjoittelun data tulee synteettisestä datasta, joka on luotu glaiveai-alustalla.

reflection 70b perustuu llama 3.1 70b instructiin ja siitä voidaan ottaa näytteitä reflection llama-3.1 70b:stä käyttämällä samaa koodia, putkilinjaa jne. kuin muut llama-mallit.

se käyttää jopa tavallista llama 3.1 -chat-muotoa.

kuitenkin reflection 70b esittelee joitainerikoismerkit, strukturoitu tulosprosessi.

kuten seuraavassa esimerkissä näkyy, suunnitteluprosessin jakaminen erilliseen vaiheeseen voi parantaa cot-vaikutusta ja pitää tuotoksen hienostuneena:

malli tulee alkaen<thinking> ja</thinking> labelin sisäinen tulosten päättely alkaa, ja kun se on tyytyväinen päätelmäänsä,<output> ja</output> lopullinen vastaus tulostetaan etiketissä.

joten se pystyy erottamaan sisäisen ajattelunsa ja päättelynsä lopullisesta vastauksesta.

olemassa<thinking> -osiossa malli voi tulostaa yhden tai useamman<reflection>label, joka osoittaa, että malli on havainnut virheen perusteluissaan ja yrittää korjata sen ennen lopullisen vastauksen antamista.

järjestelmä pyytää seuraavaa:

olet maailmanluokan tekoälyjärjestelmä, joka kykenee monimutkaiseen päättelyyn ja pohdiskeluun. perustele kyselyn kautta tagien sisällä ja anna lopullinen vastauksesi sisään
tunnisteet. jos huomaat jossain vaiheessa tehneeni virheen perusteluissasi, korjaa itsesi tunnisteiden sisällä.
(olet maailmanluokan tekoälyjärjestelmä, joka kykenee monimutkaiseen päättelyyn ja pohdiskeluun. tagien sisällä olevien kyselyiden päättelyä ja sitten
anna lopullinen vastauksesi tunnisteen sisällä. jos huomaat päättelysi jossain vaiheessa väärin, korjaa itsesi etiketin sisällä. )

on myös syytä mainita, että vertailutestissä kaikki vertailuarvot on tarkastettu kontaminaatioiden varalta ja eristetty lmsysin llm decontaminatorilla.<output> osio ja testaa tämä osio yksin.

reflection 70b:tä käytettäessä virkamies jakoi myös vinkkejä:

aluksi suositellaan, että parametrin lämpötila on 0,7 ja top_p on 0,95
tarkkuuden parantamiseksi on parasta lisätä kehotteen loppuun "ajattele huolellisesti".

viranomaiset ilmoittivat myös tämänraportti julkaistaan ensi viikolla, jossa kerrotaan mallin koulutusprosessista ja havainnoista.

luonut agent yrittäjätiimi

reflection 70b:n takana on pieni tiimi, jota johtaa hyperwriteai:n toimitusjohtaja mutt shumerjohtaa.

linkedinin mukaan mutt shumer on sarjayrittäjä, joka valmistui syracuse universitystä yhdysvalloista ja on tällä hetkellä othersideai:n toinen perustaja ja toimitusjohtaja.

othersideai on tekoälysovellusyritys, joka on sitoutunut kehittämään maailman edistyksellisimpiä automaattisia täydennystyökaluja suurten tekoälyjärjestelmien avulla. se on myös hyperwriten takana.

hyperwrite on selaimen käyttöagentti, joka voi käyttää google chromea ihmisen tavoin suorittamaan useita tehtäviä, kuten pizzan tilaaminen:

kuten gpt-llm-trainer, sinun tarvitsee vain kuvata tavoite tekstissä, ja se suorittaa sen samalla kun luetellaan vaiheet.

kun se lanseerattiin ensimmäisen kerran, sen väitettiin olevan "parempi kuin autogpt".

hyperwrite voidaan asentaa myös google-laajennukseksi.

lisäksi mutt shumer perusti visos, kun hän oli lukiossa, ja on sitoutunut kehittämään seuraavan sukupolven virtuaalitodellisuusohjelmistoja lääketieteellisiin tarkoituksiin.

perusti myös furi-yrityksen, joka pyrkii häiritsemään urheiluvälineteollisuutta luomalla korkealaatuisia tuotteita ja myymällä niitä kohtuulliseen hintaan.

vaikka meta-tuki on olemassa, kokeilu on tällä hetkellä avoinna, mutta se on edelleen: tilapäisesti poissa käytöstä.

jos olet kiinnostunut lasten kengistä, voit tehdä tilauksesi ensin~

https://reflection-playground-production.up.railway.app/

viitelinkit:
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degenerator/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

uutiset

avoimen lähdekoodin suurten mallien uusi kuningas on kumonnut gpt4o:n, uusi tekniikka pystyy korjaamaan itsensä ja mathematics 99.2 on täyttänyt testijoukon.

mallit voivat reflektoida itseään ja korjata virheitä

luonut agent yrittäjätiimi

johdanto

yhteystietoni