uutiset

Seitsemän suuren mallin pisteet "College Entrance Examination" -kokeeseen osallistumisen jälkeen julkaistiin: taiteet hyväksyttiin ensimmäiselle tasolle ja luonnontieteiden aineet vain toiselle tasolle.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Tekoälyehdokkaat voivat saada enintään 303 pistettä kolmesta aineesta, mukaan lukien kiina ja matematiikka.

Aiemmin kesäkuussa Shanghai Artificial Intelligence Laboratoryn alainen Sinan-arviointijärjestelmä OpenCompass julkaisi tekoälyn korkeakoulun pääsykokeen ensimmäiset täysimittaiset arviointitulokset, jotka osoittivat, että tekoälyehdokkaat voivat saada enintään 303 pistettä kielen lisäksi kolmesta aiheesta. ja matematiikassa, ja epäonnistui kaikessa matematiikassa.

OpenCompass julkaisi 17. heinäkuuta arvioinnin, joka laajensi oppiaineiden valikoimaa. Tiimi testasi seitsemää suurta tekoälymallia kaikissa yhdeksässä korkeakoulun pääsykokeessa, jotta niitä voidaan verrata korkeakoulun pääsykokeen tuloksiin.

Jos tekoäly suorittaa korkeakoulun pääsykokeet, mihin yliopistoon se voidaan hyväksyä? OpenCompass-testissä todettiin, että jos suuri malli suorittaa taiteiden kokeen, parhaat pisteet voidaan "hyväksyä" yhteen kirjaan, mutta jos se suorittaa luonnontieteiden kokeen, se voidaan "hyväksyä" enintään kahteen kirjaan (perustuu Henanin maakunnan pisteviiva, jolla on eniten korkeakoulujen pääsykokeita tänä vuonna) viitteeksi).


Tekoälyn suuren mallin korkeakoulun pääsykokeen tulokset kaikista 9 aiheesta

Tällä kertaa testatut mallit ovat edelleen Alibaban, Zero One Wishin, Zhipu AI:n, Shanghai Artificial Intelligence Laboratoryn & SenseTimen, ranskalaisen Mistralin avoimen lähdekoodin malleja sekä OpenAI:n suljetun lähdekoodin mallia GPT-4o.

Kokonaispisteistä päätellen taiteiden korkein pistemäärä oli Alibaba Tongyi Qianwen Model, joka voitti "Liberal Arts Number One" -palkinnon AI ​​College Entrance Examinationissa pisteillä 546 pistettä. Tieteen korkein pistemäärä on Shanghai Artificial Intelligence Laboratoryn ja SenseTimen yhdessä kehittämä Pu Chinese Quxing, joka saavutti 468,5 pistettä. OpenAI:n GPT-4o sai 531 pistettä taiteet, sijoittuen kolmanneksi, ja 467 pistemäärä tieteissä, sijoittuen toiseksi.

Mitä tulee arviointitulosten oikeudenmukaisuuteen ja läpinäkyvyyteen, asiaankuuluvat ihmiset sanoivat, että vastausten generointikoodit, mallivastauslomakkeet ja pisteytystulokset suuren mallin korkeakoulun pääsykoearvioinnissa ovat täysin julkisia ja saatavilla kaikilla elämänaloilla (esim. julkisen arvioinnin tiedot, käy osoitteessa https://github.com/open-compass/GAOKAO-Eval).

Arviointiryhmä valitsi viitteeksi Henanin maakunnan pääsyerien rivit ja vertasi suuren mallin pisteitä vastaaviin pisteyrityksiin. Yleisesti ottaen, viitaten vuoden 2024 Henanin perustutkinto-erien hakulinjoihin, kolmella parhaiten suoriutuneella laajamittaisella mallilla on enemmän kuin yksi pisteet taiteiden alalla ja yli kaksi tieteessä. Muiden suurten vapaiden taiteiden ja luonnontieteiden pisteet eivät vastanneet toisen tason vaatimuksia.

Jos tekoäly suoritti taiteiden kokeen, niin Tongyi Qianwenin, Shushengpu Chinese Quxingin ja GPT-4o:n taiteet ylittivät kaikki ensimmäisen rivin, mikä osoittaa suuren mallin syvän tietämyksen sellaisista aiheista kuin kiina, historia, maantiede, ja ideologinen politiikka.


Suuri malli "College Entrance Examination" -pisteiden vertailu - Liberal Arts

Jos tekoäly suorittaa luonnontieteiden kokeen, kokonaissuoritus on heikompi kuin taiteet, mikä heijastaa suurten mallien yleisiä puutteita matemaattisessa päättelykyvyssä. Kolme parasta tiedepistettä ovat kuitenkin myös toisen tason pistemäärän yläpuolella rivi, ja "pääsy" ei riitä kahden tason opiskelijoille.


Suuri malli "College Entrance Examination" Score Comparison-Science

Ryhmä totesi, että ollakseen lähempänä todellista korkeakoulun pääsykoetilannetta, arvioinnissa käytettiin muotoa 3 (pois lukien kieli ja matematiikka) + 3 (luonnontieteet / taiteet kattavat) suuren mallin testaamiseksi kaikissa oppiaineissa. Arviointiprosessin aikana kaikkiin pelkkää tekstiä koskeviin kysymyksiin vastattiin suurilla kielimalleilla, kun taas kattavien aiheiden kuvallisiin kysymyksiin vastattiin multimodaalisilla suurilla malleilla, jotka vastaavat ryhmät olivat laatineet avoimen lähdekoodin.

Arvioinnissa todettiin, että pelkillä tekstikysymyksillä suuren mallin keskimääräinen pistemäärä voi nousta 64,32 %:iin, kun taas kuvillisissa kysymyksissä pistemäärä on vain 37,64 %. Kuvan ymmärtämisen ja sovellusominaisuuksien osalta kaikissa suurissa malleissa on paljon parantamisen varaa.

Lisäksi jotkut suuret mallit ovat päässeet ensimmäiselle luokalle, voivatko ne saavuttaa huippuyliopistojen pääsytason? Arvosanan suorittamisen jälkeen opettajat olivat yhtä mieltä siitä, että suuren mallin ja todellisten ehdokkaiden välillä on kuilu. Vaikka perustiedon hallinta on erinomaista, iso malli on edelleen epätyydyttävä loogisen päättelyn ja tiedon joustavan soveltamisen kannalta.

Erityisesti, kun vastataan subjektiivisiin kysymyksiin, suuret mallit eivät usein ymmärrä täysin kysymysrunkoa eivätkä ymmärrä pronominien suuntaa, mikä johtaa vääriin kysymyksiin vastattaessa matemaattisiin kysymyksiin, ongelmanratkaisuprosessi on mekaaninen ja huonosti looginen. Tilalogiikan ongelmia esiintyy usein ristiriitaisia ​​päätelmiä fysikaalisista ja kemiallisista kokeista ja kyvyttömyys tunnistaa ja käyttää kokeellisia laitteita. Lisäksi suuret mallit myös väärentävät fiktiivistä sisältöä, keksivät runoja, jotka näyttävät järkeviltä, ​​mutta joita ei todellisuudessa ole olemassa, tai jotka eivät heijastu jälkikäteen, kun on ilmeisiä laskuvirheitä, ja "purevat" vastauksen, mikä kaikki tuo ongelmia merkintäopettajalle.

Julkisen arvioinnin yksityiskohdissa China Business News -toimittajat havaitsivat, että joitakin merkintöjen opettajien kommentteja oli mukana.

Luonnontieteiden ja matematiikan opettaja kommentoi, että suuren mittakaavan mallikysymykset tuntuivat yleensä hyvin mekaanisilta, ja suurinta osaa kysymyksistä ei voitu ratkaista normaalilla päättelyprosessilla. Esimerkiksi täytä tyhjän kysymyksen ensimmäisessä kysymyksessä suuri malli voi suorittaa vain pienen osan prosessista tuloksen saavuttamiseksi. Se ei voi suorittaa kattavaa analyysiä ja luetella koko laskentaprosessia oikean tuloksen, kuten hakijat tekivät kysymyksiä. Suurten mallien peruskaavamuistikyky on suhteellisen hyvä, mutta sitä ei voida käyttää joustavasti. Lisäksi joidenkin kysymysten tulokset ovat oikeita, mutta prosessilogiikka on heikko eikä muodollisten laskelmien mukainen, mikä vaikeuttaa arvostelua.

Maantieteen opettaja uskoo, että suuri malli näyttää kattavan maantieteellisen tiedon kattavuuden kysymyksiin vastausprosessissa aina fyysisestä maantiedosta ihmismaantieteeseen, maantieteellisistä ilmiöistä maantieteellisiin lakeihin. Se on erityisen hyvä testaamaan perustietopisteitä. Kuitenkin kysymyksissä, joihin liittyy syvällinen analyysi, malli toimii paremmin.

Fysiikan opettaja havaitsi, että suuret mallit tuntuivat yleensä mekaanisilta, eivätkä monet niistä kyenneet tunnistamaan kysymysten merkitystä. Vaikka vastaukset joihinkin monivalintakysymyksiin olivat oikeita, analyysi oli väärä. Joidenkin suurten kysymysten vaiheet ovat monimutkaisia ​​ja epäloogisia, ja tämän ajan johtopäätös tuodaan usein todisteisiin, jotka johtavat tämän ajan päättämiseen.

Merkintäopettajat uskovat, että nykyisillä suurilla malleilla on edelleen suuria rajoituksia verrattuna ihmiskokeisiin.

Sarakeeditori: Zhang Wu Tekstieditori: Dong Siyun Otsikko ja kuvan lähde: Tuchong Kuvaeditori: Xu Jiamin

Lähde: Kirjoittaja: China Business News