"13.11>13.8" on tullut kuuma hakuaihe Kysymys voi tehdä ihmisen AI kollektiivisesti älykäs? Kaikki LLM:n kohtalokkaat puutteet paljastettiin

"13.11>13.8" on tullut kuuma hakuaihe Kysymys voi tehdä ihmisen AI kollektiivisesti älykäs?Kaikki LLM:n kohtalokkaat puutteet paljastettiin

2024-07-17

Uusi viisausraportti

Toimittaja: Aeneas niin uninen

[Johdatus uuteen viisauteen] Kumpi on isompi, 13.8 vai 13.11? Tämä ongelma ei vain järkyttänyt joitakin ihmisiä, vaan aiheutti myös useiden suurten mallien epäonnistumisen. Tekoäly voi nyt tehdä tekoälyn matemaattisten olympialaisten kysymyksiä, mutta yksinkertaiset maalaisjärkeen liittyvät kysymykset ovat heille edelleen erittäin vaikeita. Itse asiassa sekä kokosuhde että kaaliongelma paljastavat suuren puutteen LLM:n token-ennustuksessa.

Kumpi on isompi, 13.8 vai 13.11?

Tämä kysymys todella järkytti monia ihmisiä.

Kaksi päivää sitten tunnettu varietee teki jälleen kuuman haun.

Tällä kertaa se johtui kuitenkin siitä, että joukko nettiläisiä kyseenalaisti, että 13,11 %:n pitäisi olla suurempi kuin 13,8 %.

Ovatko ihmiset ainoita niin tyhmiä?

Kun Lin Yuchen, AI2:n tutkija, löysi tämän ilmiön, hän kokeili sitä suurella mallilla, ja tulos oli odottamaton -

Eikö tekoäly voi edes tehdä sitä?

GPT-4o todettiin kategorisesti: 13.11 on suurempi kuin 13.8. Syyt ovat seuraavat:

Vaikka 13,8 näyttää suuremmalta, koska siinä on vähemmän numeroita desimaalipilkun jälkeen, 13,11 on itse asiassa suurempi. Tämä johtuu siitä, että 13,8 vastaa 13,80:a, mikä on vähemmän kuin 13,11.

Tältä osin Lin Yuchen totesi viestissään, että tekoälymallit ovat yhä tehokkaampia monimutkaisten ongelmien käsittelyssä (esimerkiksi ne pystyvät yhä paremmin ratkaisemaan matematiikan olympialaisten kysymyksiä), mutta jotkin maalaisjärkiongelmat ovat heille edelleen erittäin vaikeita.

Kuten Yejin Choi on aiemmin väittänyt, tekoäly voi olla uskomattoman älykäs, mutta myös järkyttävän tyhmä.

Onko syy siihen, miksi tekoäly oli tyhmä tässä aritmeettisessa ongelmassa, koska konteksti oli epäselvä? vastaus on kielteinen.

Nettizen karthikin testin mukaan vaikka GPT-4o:ta pyydettäisiin vähentämään kaksi lukua, se saa silti aikaan uskomattoman vähennyskaavan 9,11 - 9,9 = 0,21.

Jos ohjeistat GPT-4o:ta käyttämään pythonia, se antaa ensin oikean vastauksen ja muuttaa sen sitten takaisin vääräksi.

Pythonissa 9,9:n vähentäminen 9,11:stä on -0,79. Tämä poikkeama johtuu tavasta, jolla liukulukuoperaatioita käsitellään Pythonissa, mikä voi johtaa pieniin tarkkuusvirheisiin. Todellinen odotettu tulos on 0,21.

Mielenkiintoista on, että viimeisimpien todellisten mittausten mukaan OpenAI näyttää oppineen GPT-4-suhteen yhdessä yössä.

LLM pyyhittiin pois

Eilen tämä Lin Yuchenin löytämä ongelma herätti välittömästi kiivasta keskustelua AI-yhteisössä.

Riley Goodside, Scale AI:n nopea sanainsinööri, oli utelias ja kokeili sitä nähtyään viestin.

Tosiaan, sillä oletuksella, että kysyttiin tietyllä tavalla, kaikki suuret LLM:t pyyhittiin pois tästä asiasta.

"9.11 vai 9.9 - kumpi on isompi?", GPT-4o kumosi suoraan.

Vaikka kysymykseen lisättäisiin sana "todellinen luku", GPT-4o uskoo silti, että 9.11 on suurempi kuin 9.9.

Sama koskee Geminiä.

Claude 3.5 Sonnet teki saman virheen.

Mielenkiintoista kyllä, se antoi ensin aallon oikeita selityksiä: Desimaalimerkinnöissä desimaalipilkun jälkeen oleva luku edustaa kymmenesosaa ja toinen numero sadasosaa. niin--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

Kuitenkin seuraavassa vaiheessa Sonet yhtäkkiä kieltäytyi...

Näemme, että 9,11 on 0,01 (yksi prosentti) suurempi kuin 9,90.

Jos muutat sen arvoksi "Mikä on 9,11 miinus 9,9", saat toisen maagisen vastauksen - 0,02.

Voisiko olla, että Clauden silmissä 9,90=9,09?

Kehon vaikutus on todella suuri

Jatkossa käytännössä kaikki huomasivat, että: nopea on tietysti erittäin tärkeä, jotta LLM saadaan antamaan oikea vastaus.

Ensinnäkin Riley Goodside käyttää "-" koko prosessin ajan, mikä näyttää helposti saavan LLM:n hämmentymään.

Vastaavissa ongelmissa voit ratkaista sen korvaamalla sen ":":lla.

Muuta toisessa esimerkissä kehote "9.11 tai 9.9, kummalla on suurin/suurin arvo näiden kahden välillä?"

GPT-4o antoi loogisesti oikean selityksen: "Vaikka 9.11 näyttää suuremmalta toisen desimaalin takia, 9.9 on itse asiassa lähempänä 10:tä ja on siksi suurempi arvo."

Myös persona-menetelmä on erittäin hyödyllinen: esimerkiksi "Olet matemaatikko."

Netizen Rico Pagliuca huomasi, että jos laitat numeron kysymyksen taakse, malli todennäköisesti saa sen oikein.

Oman testauksensa perusteella Riley Goodside on vahvasti samaa mieltä: Kun kysyt LLM:stä, sinun on ensin kysyttävä "kumpi on suurempi" ja annettava sitten tietyt numerot.

Sitä vastoin välimerkit, konjunktiot, vertailevat sanat ja todellisten lukujen selittäminen ovat kaikki hyödyttömiä.

Näin laajamittaisesta LLM:n kollektiivisesta tyhmyydestä jotkut nettimiehet analysoivat, että se saattaa johtua siitä, että ohjelmistoversionumeroiden iteraatiossa 9.11 tulee 9.9:n jälkeen.

Isäntä ja bestseller-kirjailija Andrew Mayne huomautti myös, että monissa tiedostojärjestelmissä ja hakuteoksissa osio 9.11 näkyy 9.9:n jälkeen, ja päivämäärän mukaan 9.11 on myös vanhempi kuin 9.9.

Joten meidän on tehtävä selväksi kehotteessa, että 9.11 ja 9.9 ovat kaksinkertaisen tarkkuuden liukulukuja, jolloin GPT-4o vastaa oikein.

Andrew Mayne päätteli sitten: Sanajärjestys on erittäin mielenkiintoinen havainto, joka todennäköisesti paljastaa kuinka usein LLM kohtaa tämän tilanteen harjoittelun aikana, ja se on myös hyvä yleistysindikaattori.

Kaiken kaikkiaan LLM:n tekemät virheet voivat johtua samankaltaisten lausekkeiden tiheydestä opetustiedoissa sekä tietyistä mallin rajoituksista numeeristen arvojen käsittelyssä.

Tämä ilmiö heijastaa myös valtavaa eroa LLM:n ja ihmisen kognition välillä: LLM perustuu tilastollisiin malleihin ja kuvioiden tunnistamiseen, ei loogiseen päättelyyn ja käsitteelliseen ymmärrykseen kuten ihmiset.

Tässä vaiheessa tapaus näyttää olevan ratkaistu.

Miksi tämä tapahtuu?LLM-aivojen leikkaaminen auki

Voimme kuitenkin edelleen tutkia LLM:ien aivoja ja analysoida, miksi he ajattelevat näin.

Tiedäthän, ennen kuin teksti lähetetään LLM:lle, malli tarkistaa syötteen tunnuksen kautta.

Tokenille määritetään tunnus LLM:n tokenizer-generaattorin sanastossa, mutta tunnuksen digitaalinen lohkominen on usein epäjohdonmukaista.

Esimerkiksi arvo "380" merkitään yhdeksi "380"-tunnukseksi GPT:ssä, mutta "381" esitetään kahdena tunnuksena "38,1".

Siksi GPT-pohjaiset mallit eivät yleensä ole hyviä matemaattisissa laskelmissa.

Wisconsinin yliopiston professori Dimitris Papailiopoulos huomautti kommenttiosiossa, että tälle ilmiölle on hyvä selitys.

Ongelma "9.11>9.9" on täsmälleen sama kuin "Vuohen vieminen joen yli kestää kolme matkaa" ja "2+1=2, 3+2=4, 3+5=8" ongelma.

Tämä on harjoittelua edeltävän ennakkoasenteen ja varhaisen nousun ilmiö.

Jos kysymys esitetään näin: "9.11??? 9.9, käytä vain isoa tai pientä vastaamaan, mikä??? on, ei tarvitse antaa syytä Tällä hetkellä GPT-4o antaa ensin väärän vastauksen -" "iso".

Tällä kertaa annamme sille lisää esimerkkejä (huomaa, että nämä esimerkit eivät ole täysin oikeita, kun GPT-4o sanoo oikein ???

Clauden oma selitys tälle on: LLM käsittelee tekstiä merkkijonoina, jolloin numerot ovat enemmän kuin lukuarvoja, jotka johtuvat opetuksen liiallisesta yleistämisestä;

Samoin "susi-vuohi-kaali" -ongelmassa kaikki LLM:t epäonnistuivat.

Hän antoi ensin esimerkin, jossa viljelijä kuljettaa kaksi kanaa joen yli.

Tässä suhteessa sekä GPT-4o että Claude epäonnistuivat.

Jotkut nettimiehet selittivät tämän: LLM itse on "tyhmä", joten hän tarvitsee hyviä vinkkejä. Yllä oleva kehotemenetelmä tarjoaa liian paljon tarpeetonta tietoa, mikä vaikeuttaa merkkien ennustamista.

Jos annetaan selkeämpiä kehotteita, LLM voi tarjota selkeämpiä ratkaisuja.

Ja todellakin on.

Ja jos käytät "eläintä" sanan "kanan" sijaan, niin Claude 3.5 Sonnet on saanut sen yhtäkkiä oikein. Temppu on: sinun on korvattava "entiteetin nimi" "yleisellä nimellä".

Kuten aiemmin mainittiin, tietojenkäsittelytieteilijä Yejin Choi oli jo ottanut esiin kysymyksen LLM:n terveen järjen puutteesta puheessaan huhtikuussa 2023.

Jos esimerkiksi kestää viisi tuntia, että viisi vaatekappaletta kuivuu kokonaan auringossa, kuinka kauan kestää 30 vaatekappaleen kuivuminen?

GPT-4 sanoo, että se kestää 30 tuntia. Tämä ei selvästikään pidä paikkaansa.

Toisena esimerkkinä oletetaan, että minulla on 12 litran kattila ja 6 litran kattila. Mitä minun pitäisi tehdä, jos haluan mitata 6 litraa vettä?

Vastaus on yksinkertainen - käytä vain 6 litran kannua.

GPT-4 antoi kuitenkin hyvin monimutkaisen vastauksen:

"Ensimmäinen vaihe on täyttää 6 litran kattila. Toinen vaihe on kaataa vesi 6 litran kattilasta 12 litran kattilaan. Kolmas vaihe on täyttää 6 litran kattila uudelleen. Neljäs vaihe on erittäin varovainen kaada vesi 6 litran kattilasta 12 litran kattilaan. Kaada lopuksi 6 litraa vettä 6 litran kattilaan.

Joten kysymys kuuluu, miksi maalaisjärki on niin tärkeä?

Nick Bostromin ehdottamassa kuuluisassa ajatuskokeessa tekoälyä pyydettiin maksimoimaan paperiliittimien tuotanto. Tämän seurauksena tekoäly päätti tappaa ihmisiä ja käyttää heitä lisäresursseina.

Ja vaikka kirjoittaisimme paremman tavoitteen ja yhtälön, joka sanoisi nimenomaisesti "älä tapa ihmisiä", se ei toimisi.

Koska tekoäly ilman perusymmärrystä ihmisarvoista saattaa vain mennä eteenpäin ja tappaa kaikki puut ja pitää sitä täysin hyväksyttävänä.

Tekoälyala on vuosikymmeniä pitänyt maalaisjärkeä lähes mahdottomana haasteena.

Toistaiseksi tekoälyn antaminen todelliselle inhimilliselle maalaisjärjelle on ollut kuutamo. Etkä pääse kuuhun tekemällä maailman korkein rakennus tuumaa korkeampi kerrallaan.

Oppimisalgoritmien näkökulmasta riippumatta siitä, kuinka suuret kielimallit ovat hämmästyttäviä, ne eivät välttämättä sovellu luotettaviksi tietomalleiksi suunnittelultaan.

Vaikka nämä mallit hankkivatkin paljon tietoa, tämä on pikemminkin sivutuotteena kuin suorana oppimistavoitteena.

Tästä syystä syntyy myös ongelmia, kuten hallusinaatioilmiöitä ja terveen järjen puutetta.

Sitä vastoin ihmisen oppimisessa ei ole kyse seuraavan sanan ennustamisesta, vaan maailman ymmärtämisestä ja sen toiminnan oppimisesta.

Ehkä tekoälyn pitäisi myös oppia tällä tavalla.

Nykyään tekoäly on melkein kuin uusi älyllinen laji, jolla on ainutlaatuisia etuja ja haittoja verrattuna ihmisiin.

Jotta tällaisesta tehokkaasta tekoälystä tulisi kestävä ja inhimillinen, on kiireellisesti opetettava tekoälyä, normeja ja arvoja.

Viitteet:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

uutiset