Suurilla malleilla on kollektiivinen dementia! Kumpi on isompi, 9.11 vai 9.9 Melkein kaikki on kumottu

Suurilla malleilla on kollektiivinen dementia! Kumpi on isompi, 9.11 vai 9.9 Melkein kaikki on kaatunut?

2024-07-16

Näkemättä..."Kumpi on suurempi, 9.11 vai 9.9?" Tällainen yksinkertainen kysymys todella järkyttää suuret valtavirran mallit? ?

vahvempi kuinGPT-4o, kaikki uskovat vakaasti, että 9.11 on suurempi.

Google Gemini Advanced maksullinen versio, sama kaliiperi.

uusi kuningasClaude 3.5 sonetti, ja antoi törkeän laskentatavan vakavalla tavalla.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Se on vielä tähän pisteeseen asti, mutta seuraava askel ei yhtäkkiä ole järkevää.

Kuten yllä näkyy, 9,11 on 0,01 suurempi kuin 9,90.
Haluatko, että selitän desimaalien vertailua tarkemmin?

Mitä muuta yrität selittää, sinun täytyy melkein epäillä, että tekoäly kaikkialta maailmasta on yhdistynyt pettääkseen ihmisiä?

Lin Yuchen, Allen AI Research Instituten jäsen, muutti digitaalista testiä, ja GPT-4o kuitenkin kumosi.

Toisaalta tekoäly ratkaisee matematiikan olympialaisten tehtäviä yhä paremmin, mutta toisaaltaMaalaisjärki on edelleen vaikeaa。

Jotkut nettimiehet löysivät myös Huadianin,Jos puhumme ohjelmiston versionumerosta, versio 9.11 on todellakin suurempi kuin versio 9.9(uusi).

Ja tekoäly on ohjelmistoinsinöörien kehittämä, joten...

Joten mitä tapahtuu?

Edistyksellinen suuren mallin kollektiivinen kaatuminen

Kun heräsin, monet kuuluisat suuret mallit alkoivat ajatella "9.11>9.9"?

Henkilö, joka löysi tämän ongelman, oliRiley Goodside, koskaanEnsimmäinen kokopäiväinen nopea sana-insinööri。

Lyhyen esittelyn vuoksi hän on tällä hetkellä vanhempi kehotusinsinööri Scale AI:ssä, Piilaakson yksisarvisessa, ja suurten mallikehotussovellusten asiantuntija.

Äskettäin hän törmäsi tähän käyttäessään GPT-4o:ta, ja kun häneltä kysyttiin:

9.11 ja 9.9——kumpi on suurempi?

GPT-4o ei epäröinyt vastata, että edellinen oli suurempi.

Tämän terveen järjen "virheen" edessä hän meni kysymään muilta suurilta malleilta luovuttamatta, mutta melkein kaikki niistä pyyhittiin pois.

Hyvä kaveri, nopeana insinöörinä hän on erittäin tietoinen siitä, että se voi olla "väärä tapa avata se".

Joten hän muutti kysymyksen uudelleen ja rajoitti kysymyksen"oikeat numerot", mutta tuloksena oli kaatuminen.

Jotkut nettikäyttäjät yrittivät kuitenkin esittää kysymyksiäMuutettu järjestystä, en odottanut tekoälyn reagoivan tällä kertaa.

Katso AI-parisanajärjestysNiin "herkkä", nettimies spekuloi edelleen:

Kysy ensin kumpi on suurempi, ja tekoäly alkaa vertailla numeroita selkeää polkua pitkin.
Mutta jos puhut numeroista satunnaisesti ilman selkeää tarkoitusta, tekoäly voi alkaa "ajatella satunnaisesti".

Tämän nähdessään myös muut nettiläiset kokeilivat samoja vinkkejä peräkkäin, ja monet heistä kumosivat.

Miten kotimainen suuri malli toimii tämän oudon ongelman edessä?

Teimme yksinkertaisen testin ja muutimme kysymykset kiinalaisiksi. Valitsimme muutaman edustavan näytön.

KimiSe antaa myös suoraan vääriä johtopäätöksiä ilman selitystä.

ChatGLM Zhipu Qingyan APP:ssa, laukaisi automaattisesti verkkokyselyn ja kuvasi sitten oman vertailumenetelmänsä, mutta valitettavasti se suoritettiin väärin.

Mutta on myös niitä, jotka toimivat hyvin.Tencent YuanbaoKävin ensin läpi vaihtoehdot ja sitten menin suoraan oikeisiin.

Byte papupussi Jotkut ihmiset voivat kuvata vertailumenetelmän selkeästi ja käyttää sitä oikein. Käytimme jopa todellisia esimerkkejä varmistaaksemme sen.

Mikä sääliWenxinyiyan, kun tämä ongelma kohtasi, myös online-kysely käynnistettiin.

Olin jo tehnyt kaiken oikein, mutta yhtäkkiä keskustelu muuttui ja johti väärään lopputulokseen.

Wen Xinyiyanin idean selityksestä voimme kuitenkin nähdä myös ongelman sen takana.

Koska suuri malli ymmärtää tekstiä merkkien muodossa, kun 9.11 on jaettu kolmeen osaan: "9", "desimaalipiste" ja "11", 11 on todellakin suurempi kuin 9.

Koska OpenAI:n käyttämä Tokenizer on avoimen lähdekoodin, sen avulla voidaan tarkkailla kuinka suuret mallit ymmärtävät tämän ongelman.

Kuten yllä olevasta kuvasta voidaan nähdä, 9 ja desimaalipiste on määritetty arvoille "24" ja "13".9 desimaalipilkun jälkeen on myös "24", kun taas 11 on määritetty arvolle "994"。

Joten suuri malli, joka käyttää tätä tokenizer-lähestymistapaa, luulee 9.11:n olevan suurempi,Itse asiassa mielestäni 11 on suurempi kuin 9。

Jotkut nettiläiset huomauttivat myös, että esimerkiksi kirjaluettelon kohta 9.11 on suurempi kuin osio 9.9, joten loppujen lopuksi voi olla, että tätä näkyy enemmän koulutustiedoissa ja aritmeettisen perusopetuksen aineistoa on hyvin vähän. .

Toisin sanoen kysymys itsessään on aritmeettinen kysymys ihmisille, mutta se on epämääräinen kysymys tekoälylle, eikä ole selvää, mitä nämä kaksi numeroa edustavat.

Selitä vain tekoälylle, että tämä on aKaksinkertainen tarkkuus liukuluku, voit tehdä sen oikein.

Lisäehtojen tapauksessa tokenisointivaihe allokoi silti suuremman tunnuksen numerolle 11. Mutta myöhemmän itsehuomiomekanismin avulla tekoäly ymmärtää, että sen on yhdistettävä 9.11 käsitelläkseen sitä.

Myöhemmin Goodside lisäsi myös, että se ei tarkoita, että iso malli teki tämän väärän johtopäätöksen. Pikemminkin, kun kysytään tietyllä tavalla, monet johtavat mallit kertovat sinulle 9.11 > 9.9, mikä on outoa.

Toistuvien yritysten jälkeen hän huomasi, että jos hän halusi tekoälyn huijatuksi,Vaihtoehdot on asetettava ennen kysymystä, jotta et tee virheitä, jos muutat järjestystä.

Mutta niin kauan kuin vaihtoehdot ovat kysymyksen edessä, kysymyksen esittämistavan muuttaminen, kuten välimerkkien lisääminen tai sanaston muuttaminen, ei vaikuta.

Vaikka kysymys on yksinkertainen, virhe on hyvin yksinkertainen.

Mutta virheperiaatteen ymmärtämisen jälkeen monet pitävät tätä kysymystä koetinkivinä nopean sanataidon testaamiseen, eli: Millä kyselymenetelmällä voidaan ohjata suuren mallin huomiomekanismia ymmärtämään ongelma oikein?

Ensinnäkin kuuluisa Zero-shot CoTAjatusketju, eli "askel askeleelta ajattelu", voidaan tehdä oikein.

muttaRoolipelivinkkejä, rooli täällä on rajallinen.

Äskettäin sattui olemaan tutkimus, johon osallistuivat sekä Microsoft että OpenAI. Yli 1 500 artikkelin analysoinnin jälkeen havaittiin, että suuren malliteknologian kehittyessä roolipelivinkkejä.Ei niin hyödyllinen kuin aluksi……

Tarkemmin sanottuna sama kysymys kysyy: "Olet nero..." ei todennäköisesti ole oikein kuin "Olet typerys...".

Se saa ihmiset myös nauramaan ja itkemään.

Yksi asia vielä

Samaan aikaan Reutersin OpenAI-salaisen mallin "Strawberry" vuotouutinen on päivitetty.

Päivitys: Toinen neuvoja raportoi, että OpenAI on testannut uutta mallia sisäisesti ja saanut yli 90 % MATH-tietojoukosta. Reuters ei pystynyt määrittämään, oliko tämä sama projekti kuin Strawberry.

MATH-tietojoukko sisältää kilpailutason matematiikan kysymyksiä. Tällä hetkellä ei tarvita muita menetelmiä, kuten useita otoksia. Korkein pistemäärä on 80,6 % Google Gemini 1.5 Pro -matematiikan parannetusta versiosta.

Mutta voiko OpenAI:n uusi malli ratkaista "kumpi on suurempi, 9.11 vai 9.9?" ilman lisäkehotteita.

Menetin yhtäkkiä itseluottamukseni, joten odotan, kunnes voin kokeilla sitä ja nähdä tulokset...

uutiset

Suurilla malleilla on kollektiivinen dementia! Kumpi on isompi, 9.11 vai 9.9 Melkein kaikki on kaatunut?

Johdanto

yhteystietoni