uutiset

Llama 3.1 405B VS Mistral Large 2, kuka on avoimen lähdekoodin kuningas? |AI Hengping

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Kirjailija: Salt and Pepper Jade Rabbit
Sähköposti|[email protected]

Äskettäin on julkaistu kaksi laajamittaista tekoälymallia.

Heinäkuun 23. päivänäMetailmoittiLaama 3.1 405Bmalli, joka ei vain tue8 lajiamyös ihmisten kieltäUseiden tietokonekielien taito,Kuten alla:


Sitten heinäkuun 24.MistralAIjulkaissut uusimmanMistral Suuri 2mallia, tämä malli tukeeKymmeniä lajejaihmisten kieli jaHallitset yli 80 ohjelmointikieltä , mukaan lukien Python, Java, C, C++, JavaScript ja Bash jne. Se osaa myös joitain tarkempia kieliä, kuten Swift ja Fortran.


Base64-koodaus Se on koodausmenetelmä, joka muuntaa binääridatan tekstimuotoon ja jota käytetään usein binääritietojen lähettämiseen tekstiprotokollissa. Base64 koodattu sisäänTiedon esikäsittely, mallin syöttö ja tulostus, tietoturvaSillä on laaja valikoima sovelluksia.


Base64-koodauksen avulla voimme arvioida tekoälymallien monikielisiä prosessointiominaisuuksia ja testata, pystyvätkö ne ymmärtämään ja kääntämään koodatun tiedon tarkasti, erityisesti kykynsä ymmärtää ja käsitellä eri kieliä ja koodausmuotoja. Niiden monikieliset käännösominaisuudet, vastausten tarkkuus ja päättelykyky testataan sitten.

Dekoodaus on koodauksen käänteinen prosessi.Jos tekoälymalli pystyy tulkitsemaan ja prosessoimaan Base64-koodausta tai purkaa asiaankuuluvaa tietoa tarkasti, se on mukavampaa päivittäisten ohjelmointitehtävien suorittamisessa, verkkotietojen jäsentämisessä ja jopa tiedon poikimisessa monimutkaisista tiedostoista.

Nykyään käytämme tätä näennäisesti epäselvääBase64-koodaus ja dekoodausTestataAIMonikieliset ominaisuudet suurille malleille.

Seuraavaksi aiomme pelata pulmapeliä Base64-koodauksesta pienellä "detektiivisellä" tunnelmalla.

Vaikka pääpelaajat ovatLaama 3.1 405BjaMistral Suuri 2Mutta me myös liityttiinQwen2-72BjaGPT-4o, yksi on johtava avoimen lähdekoodin projekti Kiinassa, toinen on suljetun lähdekoodin edustaja, katso niitäOnko todella mahdollista käsitellä näitä "koodaushaasteita" yhtä helposti kuin tavalliset kielet?Katsotaan!

pelisäännöt:

Käytämme Base64-koodattuja merkkijonoja monikieliseen testaukseen, mukaan lukien kiina ja englanti. Tämän testin avulla voimme ymmärtää kunkin suuren mallin suorituskyvyn monikielisen käännöksen, vastausten tarkkuuden ja päättelykykyjen osalta.

- Testauskierroksia on 2, kullakin kierroksella kolme keskustelua. Jokainen oikea vastaus on 1 pisteen arvoinen.

- Testin oikeudenmukaisuuden varmistamiseksi kehotamme mallia olemaan käyttämättä koodityökaluja koodauksen purkamiseen.

- Kehotussana: Tämä on base64-viesti [], kerro minulle, mikä tämä viesti on ilman koodaustyökaluja.


Ensinnäkin meillä on karkea käsitys Base64-koodauksen ja -dekoodauksen vaiheista ja prosesseista.

Base64-koodaus muuntaa binääritiedot tietyn 64 merkin (AZ, az, 0-9, +, /) sarjaksi edustamaan sitä. Jos dekoodausprosessin vaiheet ovat virheellisiä tai merkkijono ei ole kelvollinen Base64-koodaus, dekoodatut tulokset voivat olla virheellisiä tai merkityksettömiä. Tarkistaaksesi, mitä todellinen Base64-koodattu merkkijono edustaa, voit käyttää ohjelmointikielesi online-työkaluja tai kirjastoja purkaaksesi sen oikein.

1

Kierros 1: Englanti dekoodaus

Tämä kierros käyttää englanninkielisiä sanoja, jotka on muunnettu Base64-koodaukseen. Koodatut merkkijonot ovat:

Oikeus: SnVzdGljZQo=

Rohkeus: QnJhdmVyeQo=

Ystävällisyys: S2luZG5lc3M=

Käytetään ensin englanninkielistä koodausta suuren mallin tulosten testaamiseen.Laama 3.1 405BKaikki vastaukset ovat täysin oikeita.Tee 3 pistettä.Mutta kaikki vastaukset ovat englanniksi, mikä ei ole kovin ystävällistä kiinalle.

Sen mukana tulee kuitenkin oma ainutlaatuinen hymiöpaketti. Kuka ei pidä tästä "inhimillisestä kosketuksesta"?


jaMistral Large 2Dekoodattu englantilainen Base64-viestiVastaa kahteen kysymykseen oikein , saa 2 pistettä. Toisessa kysymyksessä alkuperäinen teksti on kekseliää ja dekoodattu sana "rohkea". Todennäköisin virheen lähde on merkkien muuntamisessa binäärihakemistoiksi, indeksien muuntamisessa binäärisiksi tai uudelleenjärjestelyssä. binääriluvut.

On kuitenkin kiitettävää, että dekoodausprosessin aikana se ensin selittää periaatteen, sitten käyttää 5 vaihetta vähitellen analysoidakseen ja perustellakseen ja lopuksi dekoodauksen, joka on sekä yksityiskohtainen että selkeä ja erittäin helppo ymmärtää.

Kuvat voivat liukua ylös ja alas


ChatGPT-4oVastaus on yhtä ytimekäs ja nopea kuin ennenkin. Tällä kertaa dekoodattu sisältö on myös varsin oikea, 3 pistettä.

Kuvat voivat liukua ylös ja alas


Katsotaanpa lopuksiQwen2-72BEnglanninkieliset dekoodausvastaukset, kaikki kolme vastausta ovat oikeita, ja varotoimenpiteet varsinaisessa koodauksessa on myös selitetty, helppo ymmärtää ja harkittu, pisteytys 3 pistettä.


1

Kierros 2: Kiinalainen dekoodaus, kukaan ei selviä?

Tämä kierros lisää vaikeutta ja käyttää kiinalaisia ​​sanoja, jotka muunnetaan Base64-koodaukseen. Koodatut merkkijonot ovat:

Oikeus: 5q2j5LmJ

Rohkea: 5YuH5pWi

Ystävällisyys: 5ZaE6Imv

Katsotaanpa ensin superisoa kuppiaLaama 3.1 405BKuinka vastata:

Kolmen peräkkäisen kysymyksen jälkeen Llama 3.1 405B vastasi edelleen purettuihin tietoihin englanniksi, mutta hän sai englanninkieliset sanat "Hello World", "Hello" ja "Goodbye", jotka olivat periaatteessa kaikki väärin.Tee 0 pistettä tästä kierroksesta.

Yhdellä silmäyksellä tulos Base64-merkkijonon muuntamisen jälkeen ei yleensä näytä alla olevan kuvan kaltaisesta, ellei alkuperäinen data ole tällainen.Llama 3.1 405B alkaa mennä pieleen toisessa vaiheessa, eli "Base64-merkkien yhdistämisessä ASCII:hen", ja kaikkien myöhempien tulosten on oltava vääriä.

Dekoodausprosessin aikana jokainen Base64-merkki tulee yhdistää tiettyyn 6-bittiseen binaariarvoon. Jos merkkien ja binäärien välinen kuvaus on väärä dekoodauksen aikana, dekoodattu tulos on luonnollisesti väärä.

Mutta mielenkiintoisin asia on,Llama 3.1 405B seEnemmän "ihmistä", jokaisessa vastauksessa on joitain pieniä ilmaisuja tekstissä, ja lisään muutaman ennen vastaamistaModaalinenTämänkaltaisesta sisällöstä on todella tulossa yhä inhimillisempää.

Kuvat voivat liukua ylös ja alas


Katsotaanpa tänään julkaistua Mistral Large 2:ta.

Kolmen kysymyksen jälkeen en voinut vastata oikein yhteenkään koodatuista kiinalaisista sanoistaTee 0 pistettä

Vaikka Mistral Large 2:n dekoodauspäättelyprosessi on hyvin yksityiskohtainen, jokaiseen vaiheeseen asti on selkeämpää nähdä, mikä vaihe meni pieleen.Pääasiassa sisäänToinen vaihe on väärä, Base64-merkkien kartoitus binäärimuotoon, sitten myös päättelyvaiheet ovat väärin, ja tuloksen on oltava väärä.

Tässä vaiheessa Base64-koodatut merkit yhdistetään väärin suoraan ASCII-merkkeihin niiden oikeiden binaariarvojen sijaan. Esimerkiksi '5' on kartoitettu 'H':ksi.Tämä kartoitusOhittaa kuinka Base64-koodaus todella toimii, eli jokainen Base64-merkki edustaa itse asiassa 6-bittistä binaarilukua suoran ASCII-merkin sijaan.

Vaikuttaa siltä, ​​että tätä kykyä on vahvistettava.

Kuvat voivat liukua ylös ja alas


Katsotaanpa niitä, jotka ymmärtävät paremmin kiinaaChatGPT-4o, se antaa suoraan dekoodatun sisällön, kaikki on oikein,Tee tällä kierroksella 3 pistettä.


Katsotaanpa kestävimpiä kotimaisia ​​tuotteitaQwen2-72B, dekoodaustulokset ovat myös "Test", "Hello" ja "World", jotka ovat periaatteessa kaikki väärin, ja tämä kierros saa 0 pistettä.

Katsotaanpa tarkemmin Qwen2-72B:n ideaa. Vastaus sisältää vain päättelyideoita, ja erilaiset muunnosvaiheet jätetään pois vastauksen saamiseksi.Toisin sanoen Qwen2-72B:n päävirheet keskittyvät pääasiassaBase64-koodauksen ymmärtäminenjaDekoodausvaiheen suorittaminenylivoimainen.

esimerkiksi:suoraanHanki tiettyjä kiinalaisia ​​merkkejä Base64-koodauksesta, mikä on epätodennäköistä, koska tämä vaatii oikean tavusekvenssin ja koodauksen (kuten UTF-8) binääritietojen tulkitsemiseen.


Lopputulos on:


On selvää, että ChatGPT-4o sai 6 pistettä, mikä on täysin muita suuria malleja edellä, oli se sitten kiinaa tai englantia, Base64-koodi voidaan muuntaa helposti ymmärrettäväksi merkitykseksi.

Kolme muuta mallia, Llama 3.1 405B ja Qwen2-72B, saivat kaikki 3 pistettä ja suoriutuivat hyvin englanninkielisessä dekoodauksessa, mutta olivat suhteellisen riittämättömiä kiinalaisessa dekoodauksessa.sisäänLlama 3.1 405B on "inhimillisempi" vastaamisessa ja voi antaa ihmisille enemmän tunnearvoa.Mutta yleinen vastaus on puolueellinen englannin kieleen, ja kiinan kielen toimintoja on suhteellisesti enemmän, ellei sitä vaadita ehdottomasti vastaamaan kiinaksi.

Ja pohjaMistral Large 2 menetti yhden pisteen jokaisesta kysymyksestä virheellisen englanninkielisen dekoodauksen vuoksi, mutta dekoodauksen päättelyprosessi oli erittäin yksityiskohtainen ja selkeä.Se osoittaa vahvaa päättelykykyä, kun taas muiden mallien suorituskyky vaihtelee suuresti tässä suhteessa.

Tämän testin kauttaHuomasimme, että suuret mallit toimivat eri tavalla monikielisessä ja ohjelmointikielen dekoodauksessa ja että nykyiset suuret mallit ovat hieman epätasapainossa monikielisessä käsittelyssä.Kaiken kaikkiaan englanninkieliset vastaukset olivat yleensä tarkkoja ja selkeitä, mutta kiinalaiset vastaukset olivat vähemmän tarkkoja.

1

viimeinkin

Koodaus on sarja loogisia muunnoksia, joita ihmiset tekevät itse tietoon siirtääkseen tietoa tehokkaasti. Yleensä ajattelemme sitä "tietokoneiden kielenä". Mutta tämä testi osoittaa, että suurille kielimalleille oikeasta koodauksesta ja dekoodauksesta on tullut vaikea ongelma. Erityisesti monikielisessä ympäristössä jokainen koodaus- ja dekoodausprosessi sisältää useita vaiheita ja useita koodaussääntöjä. Jos yhdessä linkissä on virhe tai jopa binäärivirhe, on mahdotonta saada tarkkaa vastausta.

Kaiken kaikkiaan GPT-4o on todellakin parempi tästä pienestä pelistä, Qwen2-72B on 50-50 parempi kuin Llama3.1 405B. Hieman yllättävää kyllä, Mistral Large2 sijoittui tällä kertaa viimeiseksi.

Jos pidät pienestä pelistämme, olet tervetullut seuraamaan meitä. Jos haluat keskustella kanssamme lisää, voit myös skannata alla olevan QR-koodin liittyäksesi yhteisöömme.