Tekoälyn suuren mallin "College Entrance Examination" -kokeen tulokset julkistetaan: kirjallisuudessa lähes kaikki ovat osittaisia, matematiikassa hieman heikkoja ja ongelmanratkaisuideat ovat erityisen "aksiaalisia"

2024-07-26

Heti kun National College Entrance Examination päättyi vuonna 2024, OpenCompass, Shanghai Artificial Intelligence Laboratoryn alainen laaja avoimen lähdekoodin arviointijärjestelmä, valitsi seitsemän suurta tekoälymallia kotimaassa ja ulkomailla suorittamaan kaikkien oppiaineiden pääsykokeita varten. Seitsemän tekoälyehdokkaan testipaperit arvioivat Opettajat, joilla on kokemusta kokeesta, arvioivat pisteet tietämättä ehdokkaiden henkilöllisyyttä.

Äskettäin testitulokset julkaistiin: Shusheng·Puyu 2.0 -sarjan Wenquxingin suuren kielimallin, Ali Tongyi Qianwenin suuren mallin Qwen2-72B ja GPT-4o pisteet sijoittuivat kolmen parhaan joukkoon kaikkien tekoälyehdokkaiden joukossa. Kun otetaan tämän vuoden Henanin maakunnan tuloslinja viitteeksi, näiden kolmen tekoälyehdokkaan taiteet ylittivät kaikki "ensimmäisen rivin" ja tiedepisteet olivat tiukasti "toisen rivin" yläpuolella.

Tekoälyehdokkaiden lähettämiä vastauslomakkeita analysoimalla teollisuus uskoo, että tässä vaiheessa suurilla malleilla on hyvin erilainen ajattelupolku kuin ihmisillä muisti- ja logiikkaongelmien ratkaisemisessa, mutta tämä osoittaa myös tietä tekoälyn tulevalle kehitykselle.

Suoriutui hyvin kielikokeissa, mutta matematiikan lyhytvastauskysymyksistä tuli "ylipääsemätön este"

Tämän testin tulokset osoittavat, että tekoälyehdokkaat ovat jonkin verran osittaisia aiheisiin ja he kaikki näyttävät olevan "vapaiden taiteiden opiskelijoita".

Seitsemästä suuresta mallista 4 saavutti korkeat pisteet yli 130 uuden opetussuunnitelmastandardin englanninkielisessä kokeessa GPT-4o voitti englannin kokeessa ensimmäisen sijan ja sai englannin kielen opettajan arvostuksen Sen koostumuksen sanotaan olevan "rikkaita lausemalleja ja virheetöntä kieltä", mutta sanoja on hieman vähemmän, joten 1 piste vähennetään.

Lisäksi tekoälyehdokkaat menestyivät hyvin myös uuden kiinan kielen kurssistandardin Paper I:ssä: keskimääräiset pistemäärät yli 70 % nykykiinan lukemisesta, muinaisen runouden lukemisesta, kuuluisasta lauseen sanelusta ja säveltämisestä.

Tekoälyn katsotaan olevan yleensä erinomaisia loogisen ajattelun kykyjä. Tässä testissä tekoälyehdokkaat pyyhkäisivät kuitenkin lähes kokonaan pois, kun he kohtasivat uuden matematiikan opetussuunnitelmastandardin kirjan I, eikä yksikään heidän pisteistään saavuttanut puolta kokonaispistemäärästä (ts. 75 pistettä). Matemaattisista lyhytvastauskysymyksistä on tullut "ylipääsemätön este" tälle ehdokasryhmälle. Viiden lyhytvastauskysymyksen keskiarvo on vain 18,9 %.

Fudanin yliopiston tietojenkäsittelytieteen ja teknologian korkeakoulun professori Zhang Junping sanoi, että tällä kertaa testiin osallistuvat tekoälyehdokkaat ovat kaikki suuria kielimalleja ja ovat saaneet korpuskoulutuksen, joten heillä on etu kielipapereihin vastaamisessa. . Matematiikan ja fysiikan aineiden kokeessa hakijoilta vaaditaan tiettyjä päättelykykyjä, ja tämä kyky on aina ollut suurten mallien puute.

"Nopea järjestelmä" -ajattelutila estää tekoälyehdokkaita "piirtämästä"

Miksi tekoälyehdokkaat ovat yleensä puolueellisia oppiaineissa ja miksi he ovat niin puolueettomia? Monet tekoälyn alalla syvästi mukana olevat tutkijat huomauttivat, että tällä on paljon tekemistä suurten mallien "ajattelun" kanssa tässä vaiheessa.

"Kysymystä tehdessään ihmiset yleensä muotoilevat ideoita ongelman ratkaisemiseksi ensin ja vastailevat siihen. Mutta näin ei ole tekoälyn tapauksessa. Se tekee sen vain väkisin yksityiskohdista riippumatta. Jos se ei onnistu, se tulee "mukulakiviksi" taas." Liittyy Shanghain tekoälylaboratorioon Vastuuhenkilö kertoi toimittajille, että matematiikan ja fysiikan kysymysten ratkaisuprosessi on äärimmäisen epävarma. Siksi ihmisehdokkaat yleensä selventävät ajatuksensa raaputusarpeilla ennen kuin he alkavat vastata kysymyksiin. kysymyksiä. Suuret mallit puolestaan luovat tekstejä peräkkäin ja heiltä puuttuu kyky "tehdä luonnoksia".

"Tekoälyehdokkaiden ja ihmisehdokkaiden kahta ajattelutapaa voidaan verrata "nopeaan järjestelmään" ja "hitaan järjestelmään", joita Daniel Kahneman ehdotti teoksessa "Thinking, Fast ja Slow", Zhang Junping selitti, että tekoälyn pääjohtaja on tuottaa nopeasti vastauksia ja simuloi päättelyprosessia todennäköisyysoperaatioilla. Ihmisen ongelmien ymmärtäminen perustuu usein kokemusten kertymiseen ja näkee asiat kokonaisvaltaisesti ja makroskooppisesti, joten se näkee myös syvemmälle.

Testipaperissa paljastetut ongelmat ovat myös "uusia testipapereita" tekoälyn kehittämiselle.

Yliopiston pääsykokeiden valintakilpailussa ihmiset ovat toistaiseksi vielä kaukana tekoälyn edellä. "Suurien tekoälymallien järjestämisen tavoitteena korkeakoulun pääsykokeisiin on arvioida nykyisten suurten mallien todellista tasoa, tunnistaa ongelmat ja jatkaa teknologisen kehityksen edistämistä Shanghain tekoälylaboratorion vastaava henkilö korosti Tekoälyehdokkaiden tulokset paljastivat myös suurten mallien edut ja haitat.

Shanghain tekoälylaboratorion vastaava henkilö kertoi toimittajille, että useimmilla malleilla ei vielä ole kykyä korjata virheitä itse, ja jos ne tekevät virheitä, heidän on "taisteltava kovaa" loppuun asti tai jopa palattava. "hölynpölyn" kautta. Siksi virheenkorjausominaisuuksien parantaminen saattaa vaatia erityistä huomiota tulevassa suuressa mallikoulutuksessa.

Lisäksi suurien mallien "illuusio" on edelleen olemassa, ja ne muodostavat "vakavasti" sisällön. "Tässä testissä jotkut suuret mallit muodostavat runoja, mikä sai jotkut merkintäopettajat virheellisesti uskomaan, että tietty heidän keksimänsä runo on todella olemassa, mutta he eivät tiedä sitä Tekoälylaboratorion johtaja lisäsi, kuinka parantaa tekoälyn uskottavuutta, vielä matkalla.

Kirjailija: Zhang Feiya

Teksti: Harjoittelija toimittaja Zhang Feiya Kuvat: Visual China Toimittaja: Zhang Feiya Päätoimittaja: Fan Liping

Ilmoita lähde, kun tulostat tämän artikkelin uudelleen.

uutiset

Tekoälyn suuren mallin "College Entrance Examination" -kokeen tulokset julkistetaan: kirjallisuudessa lähes kaikki ovat osittaisia, matematiikassa hieman heikkoja ja ongelmanratkaisuideat ovat erityisen "aksiaalisia"

Johdanto

yhteystietoni