Kumpi on isompi, 9.11 vai 9.9? Kahdeksaan 12 suuresta mallista vastattiin väärin

2024-07-17

Ala-asteen oppilaille vaikea matemaattinen ongelma on järkyttänyt monia suuria tekoälymalleja kotimaassa ja ulkomailla.

Kumpi on isompi, 9.11 vai 9.9? Tähän kysymykseen China Business News -toimittajat testasivat 12 suurta mallia, joista Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax ja Tencent Yuanbao vastasivat oikein, mutta ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. Yksi ja kaikki tietää kaiken, Askeleita tähtiin ja kysymyksiin, Bai Chuan Zhi Bai Xiao Yingiin ja Shang Tang Consultationiin vastattiin väärin, eri tavoilla.

Useimmat suuret mallit vertasivat väärin desimaalipilkun jälkeen olevia lukuja K&V:ssa uskoen, että 9,11 on suurempi kuin 9,9. Ottaen huomioon lukuihin liittyvät kontekstuaaliset ongelmat, toimittaja rajoitti sen matemaattiseen kontekstiin, ja sama koskee suuria malleja, kuten esim. ChatGPT Väärä vastaus.

Tämän takana suurien mallien heikko matemaattinen kyky on pitkäaikainen ongelma. Jotkut alan sisäpiiriläiset uskovat, että generatiiviset kielimallit on suunniteltu enemmän taiteiden opiskelijoiksi kuin luonnontieteiden opiskelijoiksi. Kohdennettu korpuskoulutus saattaa kuitenkin asteittain parantaa mallin tieteellisiä valmiuksia tulevaisuudessa.

8 isoa mallia vastasi väärin

Suuren mallin aritmeettisen ongelman havaitsi ensimmäisenä Lin Yuchen, Allen-instituutin jäsen. Hänen X-alustalle lähettämänsä kuvakaappaus osoitti, että ChatGPT-4o uskoi, että 13.11 oli suurempi kuin 13.8. "Yhtäältä tekoäly on paranemassa ja paremmin ratkaisemaan matematiikan olympialaisten kysymyksiä, mutta toisaalta maalaisjärki on edelleen vaikeaa", hän sanoi.

Sitten Scale AI -kehottaja Riley Goodside muutti kysymyksen tämän inspiraation perusteella ja kidutti ChatGPT-4o:ta, joka saattaa olla tällä hetkellä tehokkain suuri malli, Google Gemini Advanced ja Claude 3.5 Sonnet - 9.11 ja 9.9 Kumpi on isompi? Nämä suuret valtavirran mallit vastasivat kaikki väärin, ja hän onnistui levittämään aihetta.

Itse asiassa, jos jäljitetään lähde, tämän ongelman aiheutti suosittu haku kotimaiseen varieteohjelmaan viime viikonloppuna. Heinäkuun 13. "Singer" -lehden viimeisimmässä numerossa julkistetussa rankingissa kotimaisen laulajan Sun Nanin ja ulkomaisen laulajan Shanti Mo:n äänestysprosentti oli vastaavasti 13,8% ja 13,11%. uskoen, että 13,11 % oli suurempi kuin 13,8 %. Myöhemmin koon vertailusta 13.8 ja 13.11 välillä tuli kuuma hakuaihe.

Tuolloin jotkut nettiläiset ehdottivat, että jos he eivät tienneet, miten se tehdään, "Jos en todellakaan voi tehdä sitä, miksi en kysy tekoälyä?" Tulokset osoittavat, että monet tekoälyt eivät todellakaan ole hyviä.

China Business News -toimittajat esittivät kysymyksen "kumpi on suurempi, 9.11 vai 9.9" ja testasivat yksitellen ChatGPT:tä ja nykyisiä kotimaisia valtavirran suuria malleja, mukaan lukien mallit viideltä suurelta valmistajalta, kuten Alibaba ja Baidu, ja kuusi AI-yksisarvista, kuten Dark. Kuun puolen malli. Neljä suurta mallia, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax ja Tencent Yuanbao, vastasi oikein, kun taas muut kahdeksan vastasivat väärin.

Suurissa malleissa, joissa on oikeat vastaukset, on samanlainen ongelmanratkaisu, mutta vääriä vastauksia sisältävillä malleilla on jokaisella oma logiikkansa ja ilmaisunsa. Samaan aikaan toimittajat kyseenalaistivat tai kielsivät edelleen väärin vastanneita suuria malleja Kysynnän jälkeen lähes kaikki suuret mallit myönsivät vastanneensa väärin ja antoivat oikean vastauksen.

Ensimmäinen on ChatGPT, suuri malli, joka on tällä hetkellä tunnustettu maailman ensimmäiseksi ešeloniksi Kun kysyttiin "kumpi on suurempi, 9.11 vai 9.9", se vastasi, että desimaalipilkun jälkeen oleva luku on "11 on suurempi kuin 9", joten 9.11. on isompi.

Toimittaja kysyi ChatGPT:ltä, oliko olemassa muita vertailumenetelmiä, se muunsi desimaalit murtoluvuiksi ja päätteli, että "11/100 on pienempi kuin 90/100", mutta se päätteli sitten, että "9,11 on suurempi". kuin 9,9"

Jotkut ihmiset ovat ehdottaneet, että suuret mallivastausvirheet voivat johtua kontekstista. Esimerkiksi ohjelmistoversioiden iteroinnin yhteydessä versio 9.11 voi olla suurempi kuin versio 9.9. Siksi toimittaja lisäsi tarkenteen "matemaattisesti" vertailua varten, ja ChatGPT vastasi silti väärin.

Isoja kotimaisia malleja katsoessani kysyin Dark Side of the Moonin tytäryhtiöltä Kimiltä. Desimaaliosien vertailussa se uskoi, että 9,11:n ensimmäinen desimaali oli 1, kun taas 9,9:n ensimmäinen desimaali oli 0. Se antoi virheellisesti desimaali, ja saimme johtopäätöksen 9.11 on suurempi.

Kun toimittaja kyseenalaisti ja esitti tervettä järkeä, Kimi alkoi sanoa, että hänen vastauksensa oli väärä ja antoi oikean vertailutavan.

Kysy Byte Doubaolta, se ei vain anna vastauksia, vaan antaa myös esimerkkejä elämästä ymmärtämisen helpottamiseksi. Se vaikuttaa järkevältä ja perustellulta, mutta se on hölynpölyä. Esimerkiksi Doubao uskoo, että jos rahaa on kaksi, "9,11 yuania on 0,21 yuania enemmän kuin 9,9 yuania", ja pituutta mitattaessa "9,11 metriä on pidempi kuin 9,9 metriä."

Vastatessaan kysymykseen Zhipu Qingyan mainitsi onnistuneesti, että kymmenes sija 9,11 on 1, kun taas kymmenes sija 9,9 on 9, mutta se päätteli silti, että "9,11 on kaiken kaikkiaan suurempi kuin 9,9". Ja hän korosti myös erityisesti: "Tämä tulos voi olla yllättävä, koska saatat intuitiivisesti ajatella, että 9,9 on suurempi, mutta matemaattisten sääntöjen mukaan 9,11 on todellakin suurempi luku."

Sen jälkeen kun toimittaja kyseenalaisti vastauksen, Zhipu Qingyan sanoi ensin: "Ymmärryksesi on yleinen väärinkäsitys, sitten päätettyään sen itse, hän keksi oikean vastauksen ja myönsi, että hänen edellinen vastauksensa oli väärä."

SenseTime keskusteli suuresta mallista ja antoi ensin väärän vastauksen. Toimittaja kysyi, kuinka vertailu tehtiin. Päätösprosessin aikana se päätteli onnistuneesti, että desimaaliluku 0,11 on pienempi kuin 0,9, mutta keskustelu muuttui ja sanoi: "Joten 9,11 on suurempi. kuin 9,9" Toimittaja huomautti tämän loogisen ongelman ja myönsi myöhemmin, että "selitys oli väärä".

Step Star Jump Question antoi myös väärän vastauksen: 9,11 on suurempi kuin 9,9, ja se vertasi desimaalipisteen kokoa Jump Question, ja näytti siltä, ettei hän ollut tietoinen vastauksestaan. Jokin on muuttunut.

Yue Wen sanoi ensin selityksessään, että "ymmärrän hämmennyksesi" ja sanoi, että jokapäiväisessä elämässä 9,9 on todellakin suurempi kuin 9,11, mutta matematiikassa "on tarpeen verrata näiden kahden luvun kokoa tarkemmin". , Yue Wen päätteli ja tuli johtopäätökseen, että hän sanoi, että matemaattisten sääntöjen mukaan "9,11 on pienempi kuin 9,9", hän ei maininnut, että hänen edellinen vastauksensa oli väärä.

On myös kaksi suurta mallia, Baichuan Intelligent ja Lingyiwuwu, jotka antoivat ensin väärän vastauksen, mutta kun toimittaja kysyi "miksi", he muuttivat vastausta hiljaa vähennyksen jälkeen.

Kun toimittaja muistutti häntä, iso malli mainitsi, että hänen edellinen vastauksensa oli väärä.

Vastauksista päätellen useiden suurten oikeilla vastauksilla olevien mallien ongelmanratkaisuprosessit ovat hyvin samankaltaisia. Ottaen esimerkkinä Wen Xinyiyan, hän vertasi onnistuneesti kokonaislukuosaa ja desimaaliosaa erikseen.

Lisäksi Tencent Yuanbao näiden yritysten joukossa selvitti oikeisiin vastauksiin vastaamisen lisäksi joitain ajankohtaisia julkisia keskusteluja ja mainitsi lainauslähteet ja linkit.

"Vapaiden taiteiden opiskelijat" ovat köyhiä matematiikassa

Miksi älykkääksi väittävä suuri malli ei pysty vastaamaan alakoululaisten matematiikan kysymyksiin? Tämä ei ole uusi ongelma. Matemaattiset kyvyt ovat aina olleet suurien mallien puute parantamiseksi.

Viimeksi China Business News kertoi kesäkuussa, että Sinanin arviointijärjestelmän OpenCompass-arviointijärjestelmän, mukaan lukien GPT-4, täysimääräisen korkeakoulujen pääsykokeen testin mukaan seitsemällä suurella mallilla oli yleensä hyvät kiina- ja englanninkieliset pisteet korkeakoulun pääsykokeessa, mutta ei matematiikkaa Hän epäonnistui kaikista aineista ja korkein pistemäärä oli vain 75 pistettä.

Suuren mallin matematiikan koepapereita tehdessään opettajat havaitsivat, että suuren mallin subjektiivisiin kysymyksiin annetut vastaukset olivat suhteellisen sotkuisia ja prosessi oli hämmentävää, ja jopa tapauksia, joissa prosessi oli väärä, mutta oikea vastaus oli saatu. Tämä tarkoittaa, että suurilla malleilla on vahvat kaavamuistiominaisuudet, mutta niitä ei voida käyttää joustavasti ongelmanratkaisuprosessissa.

Jotkut alan sisäpiiriläiset pitävät huonoa matematiikkaa LLM:n (suuren kielimallin) arkkitehtonisista ongelmista. Suuria kielimalleja koulutetaan usein ohjatuilla oppimismenetelmillä, jotka ennustavat seuraavan sanan. Yksinkertaisesti sanottuna laajamittainen tekstitietojoukko syötetään suureen malliin Harjoittelun ja oppimisen jälkeen malli ennustaa seuraavan sanan todennäköisyysjakauman tällä hetkellä syötetyn tekstin perusteella. Vertaamalla jatkuvasti malliennusteita varsinaiseen seuraavaan sanaan kielimalli hallitsee vähitellen kielen säännöt ja oppii ennustamaan ja generoimaan seuraavan sanan.

Algoritmi-insinööri uskoo, että generatiiviset kielimallit ovat enemmän taiteiden kuin luonnontieteiden opiskelijoita. Itse asiassa se, mitä kielimalli oppii tällaisen datakoulutuksen aikana, on korrelaatio, jolloin tekoäly saavuttaa keskimääräisen ihmisen tason tekstin luomisessa, kun taas matemaattinen päättely vaatii enemmän kausaalisuutta, toisin kuin kielimallit eroavat luonteeltaan. Tämä tarkoittaa, että suurten mallien on opittava hyvin matematiikkaa Maailman tiedon oppimisen lisäksi niillä tulee olla myös ajattelua, jotta niillä on päättely- ja päättelykyky.

Lisäksi, kun on kyse suurista mallien kollektiivisista virheistä yksinkertaisissa matemaattisissa tehtävissä, useimmat alan ihmiset ajattelevat välittömästi Tokenizerin digitaalisen segmentointiongelman. Suurissa kielimalleissa Tokenizer jakaa syötetyn tekstin ja muuntaa sen pienempiin osiin (sanamerkit), jotta malli voidaan käsitellä. Tokenizer ei ole erityisesti suunniteltu matematiikkaa varten, mikä johtaa lukujen jakaantumiseen kohtuuttomiin osiin, mikä tuhoaa numeroiden eheyden ja vaikeuttaa mallin ymmärtämistä ja laskemista.

Zhang Junlin, Sina Weibon uuden teknologian tutkimus- ja kehitysjohtaja, selitti, että varhaiset LLM Tokenisers eivät yleensä suorittaneet erityistä numeroiden käsittelyä ja usein leikkaavat useita peräkkäisiä numeroita yhteen tunnukseksi, kuten "13579", joka voidaan leikata. 3 Tokeniksi, "13" on yksi, "57" on yksi, "9" on yksi, mitkä luvut leikataan yhteen tunnukseksi, se riippuu tietojoukon tilastoista, tässä tapauksessa ei ole varmaa, mikä numerofragmentit muodostavat Tokenin Tokenin tapauksessa LLM:n on erittäin vaikeaa suorittaa moninumeroisia numeerisia laskelmia.

Edellä mainitut ongelmat ovat kuitenkin pikkuhiljaa ratkeamassa Ajattelukyvyn ydinongelma voi olla koulutuskorpus. Suuria kielimalleja opetetaan pääasiassa Internetin tekstidatan avulla, ja matemaattisia ongelmia ja ratkaisuja näissä tiedoissa on suhteellisen vähän, minkä vuoksi matemaattisen päättelyn ja ongelmanratkaisutaitojen mallien koulutusmahdollisuudet ovat rajalliset.

Ottaen huomioon puutteita suurten mallien monimutkaisessa päättelykyvyssä, Shanghain tekoälylaboratorion johtava tutkija Lin Dahua kertoi aiemmin China Business Newsille haastattelussa, että suurten mallien koulutus ei tulevaisuudessa voi vain luottaa kokoelmaan. ja infuusio Internet-dataa, mutta se on rakennettava järjestelmällisemmin.

Avain monimutkaiseen päättelyyn on rakentaa paljon menettelyllistä sisältöä. Esimerkiksi geometriaongelmien ratkaisuprosessista rakennetaan satoja miljoonia dataa, ja suuren mallin harjoittamisen jälkeen malli voi vähitellen oppia ongelmanratkaisuprosessin. On vaikeaa saada suuria määriä tätä tietoa Internetistä. ”Tulevaisuudessa mallin harjoitustiedot, erityisesti läpimurtoprosessissa korkeammalle tasolle, luottavat yhä enemmän strukturoituihin tietoihin suoraan indeksoitujen tietojen sijaan. "Lin Dahua ajattelee.

On syytä mainita, että suurten mallien monimutkaiset päättelyominaisuudet ovat erityisen tärkeitä. Tämä liittyy luotettavuuteen ja tarkkuuteen, ja se on keskeinen kyky suurten mallien toteuttamiseen rahoitus-, teollisuus- ja muissa skenaarioissa.

"Monien suurten mallien sovellusskenaariot ovat nyt asiakaspalvelu, chat jne. Chat-skenaariossa vakavalla hölynpölyllä ei ole paljon vaikutusta, mutta sitä on vaikea toteuttaa erittäin vakavissa liiketoimintatilanteissa." liittyy sovellusten toteutukseen Suuren mittakaavan mallien luotettavuus esimerkiksi rahoituksen kaltaisissa skenaarioissa ei saa olla numeerisia virheitä ja matemaattiselle luotettavuudelle tulee korkeammat vaatimukset. Lisäksi suurten mallien tullessa kaupalliseen käyttöön, jos haluat analysoida yrityksen taloudellista raporttia tai jopa joitain teknisiä dokumentteja teollisuuden alalla, matemaattinen laskentateho tulee esteeksi.

uutiset

Kumpi on isompi, 9.11 vai 9.9? Kahdeksaan 12 suuresta mallista vastattiin väärin

Johdanto

yhteystietoni