2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]
Tämän artikkelin kirjoittajat ovat Beijing University of Posts and Telecommunications, Tencent WeChat, Huazhong University of Science and Technology ja Beijing Institute of Technology. Kirjoittajaluettelo: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhi , Li Chen , Zhang Honggang. Heidän joukossaan ensimmäinen kirjoittaja Qiao Runqi on tohtoriopiskelija Pekingin posti- ja televiestintäyliopistossa, Tan Qiuna on maisteriopiskelija Pekingin posti- ja televiestintäyliopistossa ja vastaava kirjoittaja on apulaisprofessori Zhang Honggang Beijing University of Postsista. ja televiestintä Tämän artikkelin viimeisteli Qiao Runqi työharjoittelunsa aikana WeChatissa.
Tekoälyteknologian nopean kehityksen myötä useaa modaalista tietoa käsittelevistä multimodaalisista suurista malleista (LMM) on vähitellen tullut tutkimuksen hotspot. Integroimalla tietoa eri modaliteeteista LMM:t osoittavat tiettyjä päättely- ja ymmärryskykyjä ja toimivat hyvin tehtävissä, kuten visuaalisissa kysymyksiin vastaamisessa, kuvien luomisessa ja monimuotoisessa haussa. Tämän multimodaalisen kyvyn ansiosta LMM:illä on suuri sovelluspotentiaali monissa monimutkaisissa skenaarioissa. Jotta voidaan tarkasti ja tieteellisesti testata, onko tekoälyllä vahvoja päättelykykyjä, matemaattisista kysymyksiin vastaamisesta on tullut tärkeä vertailukohta mallin päättelykykyjen mittaamisessa.
Tarkastellessamme tekoälyn kehityshistoriaa huomaamme, että ihmisen kognitiolla ja tavallamme ajatella ongelmia on ollut syvällinen vaikutus tekoälyn kehitykseen. Läpimurrot, kuten hermoverkot ja huomiomekanismit, liittyvät läheisesti ihmisen ajattelumalleihin. Kuvittele, että kun ihmiset vastaavat matemaattiseen kysymykseen, heidän täytyy ensin tutustua kysymyksessä tutkittuihin tietopisteisiin ja käyttää sitten asiaankuuluvaa tietoa vaiheittaisen päättelyn tekemiseen vastauksen löytämiseksi. Mutta kun malli vastaa, onko sen päättelyprosessi yhdenmukainen ihmisten kanssa?
Keskittyessämme matemaattisiin ongelmiin havaitsimme, että malli voi vastata monimutkaisiin kysymyksiin, mutta se ei pysty vastaamaan joihinkin yksinkertaisiin kysymyksiin. Selvittääksemme tämän ilmiön syitä ihmisten ongelmanratkaisuajattelumallien inspiroimana, mallinsimme ensin ongelmanratkaisuprosessin, jossa ensin hallitaan tietopisteet ja sitten käytetään niitä loogiseen päättelyyn seuraavasti:
Niiden joukossa (X, Y) ja (x_i, y_i) edustavat matemaattista ongelmaa ja kunkin osatehtävän kysymyksiä ja vastauksia, ja P_syy edustaa LMM:ien kattavaa sovelluskykyä (tiedon yleistys). Tämän perusteella We-Math rakensi ensin monitasoisen puutietojärjestelmän, joka perustui 67 atomitietopisteeseen, ja sitten atomitiedon ja päättelyvastausten perusteella se hajotti monimutkaisia ongelmia, joissa oli useita tietopisteitä useiksi atomitietopisteiksi. Vastaavia alakysymyksiä käytetään mallin vastausmekanismin tutkimiseen.
We-Math on tällä hetkellä HuggingFace-päivälehden ensimmäisellä sijalla, ja sillä on yli 10 000 katselukertaa Twitterissä!
We-Math Benchmark
1. Tietojen koostumus
We-Math-arviointiaineisto sisältää yhteensä 6,5 000 multimodaalista peruskoulun matematiikan tehtävää ja monitasoisen tietorakenteen. Jokaisella matematiikan tehtävällä on vastaavat tietopisteet (1-3). Kaikkien kysymysten tietopisteet peitetään 5-kerroksisella tietoarkkitehtuurilla, jossa on 99 solmua (viimeinen kerros sisältää 67 tietopistettä). Ja kuten alla olevasta kuvasta näkyy, helpottaaksemme mallin luontaisia ongelmia ongelman ratkaisemisessa, viittaamme oppikirjaan ja Wikipediaan ja esittelemme heuristisesti 67 tietopisteen kuvauksen, mikä tarjoaa tarvittavia tietovinkkejä päättelyprosessiin. LMM:t.
2. Pura kysymys
Mallin vastausmekanismin kohtuudella arvioimiseksi perustuimme tiukasti ihmisen vastausten standardivastauksiin ja jaoimme monimutkaisen kysymyksen n:ksi alakysymykseksi monimutkaisen kysymyksen sisältämien tietopisteiden mukaan, missä n edustaa tiedon määrää. monimutkaisen kysymyksen sisältämiä kohtia.
Kuten alla olevassa kuvassa, monimutkainen ongelma: Mary käveli pyöreän kukkapenkin pohjoisimmasta pisteestä kukkapenkin reunaa pitkin Kuljettu matka on 50,24 metriä kukkapenkki. Ongelman ratkaisuprosessissa sinun on ensin selvitettävä Marian kulkemaa polkua vastaava keskikulma ("pohjoisin") "kaakkois, luoteis" -tietopisteen perusteella ja "pohjoisimman" olosuhteiden kautta. ja "itäisimmän" suunnan kulma sen ja "itäisimmän" välillä on 90 astetta). Sitten tietopisteen "ympyrän ympärysmitta" ja ehdon, että ympyrän keskikulma on 90 astetta ja Marian kulkeman polun pituus, perusteella lasketaan pyöreän kukkapenkin ympärysmitta ja sen säde. saadaan pyöreä kukkapenkki. Lopuksi "ympyrän alueen" tietopisteen ja saadun säteen ehtojen mukaan lasketaan pyöreän kukkapenkin pinta-ala ja ongelman ratkaisu on valmis.
Analysoimalla yllä olevaa ongelmanratkaisuprosessia, jotta voidaan tutkia mallin vastausmekanismia ja mallin hienorakeista päättelykykyä, alkuperäinen kysymys voidaan jakaa kolmeen alakysymykseen niitä vastaavien tietopisteiden mukaan. Tarkemmin sanottuna ensimmäinen kysymys: Mary lähtee ympyrästä Kukkapenkin pohjoisimmasta pisteestä kukkapenkin reunan itäisimpään pisteeseen, etsi hänen kulkemansa polun kaaria vastaava keskikulman aste. Toinen kysymys: Pyöreässä kukkapenkissä , 90 asteen keskikulmaa vastaavan kaaren pituus on 59,24 m, etsi pyöreän kukkapenkin säde, kolmas kysymys: etsi ympyrän muotoisen kukkapenkin pinta-ala, jonka säde on 32 m.
3. Mittarit
Tältä pohjalta, kuten alla olevasta kuvasta näkyy, otamme käyttöön uuden neliulotteisen mittausstandardin, nimittäin riittämättömän tiedon hallinnan (IK), riittämättömän yleistyskyvyn (IG), täydellisen hallinnan (CM) ja muistimuistin (RM).
Niiden joukossa on IK IK:n, IG:n ja CM:n välillä
Kokeilut ja johtopäätökset
We-Math on tällä hetkellä suorittanut arvioinnit 17 suuresta mallista, mukaan lukien yhteensä 4 suljetun lähdekoodin mallia ja 13 avoimen lähdekoodin mallia. Taulukossa 1 ja kuvassa 6 on esitetty LMM:ien tulokset eri tietopistemäärillä ja mallin suorituskyky toisen tason tietopisteiden alla. ja Kattavat pisteytystulokset tiukoilla ja löysillä standardeilla. Kuva 10 esittää KCA-strategian lieventämistuloksia mallille IK-ongelmissa.
LMM:ien suorituskyky eri tietopistemäärillä ja sen suorituskyky toisen tietopistetason alaisuudessa
LMM:ien suorituskyky neliulotteisten indikaattoreiden alaisuudessa ja niiden kattavat pisteytystulokset tiukoilla ja löysillä standardeilla
LMM:ien suorituskyky KCA-strategian mukaisesti
Tee yhteenveto
Tässä artikkelissa ehdotamme WE-MATHia, kattavaa vertailukohtaa LMM:iden vastausmekanismien hienorakeiseen arviointiin visuaalisissa matemaattisissa päättelytehtävissä. WE-MATH sisältää yhteensä 6,5 000 visuaalista matematiikan tehtävää, jotka kattavat 5 kerroksen ja 67 tietopisteen monitasoisen tietorakenteen. Teimme ongelman edelläkävijänä jakamalla sen useiksi alakysymyksiksi vaadittujen tietopisteiden perusteella ja otimme käyttöön uuden neliulotteisen indikaattorin hienorakeista päättelyn arviointia varten. WE-MATHin avulla arvioimme kattavasti olemassa olevien LMM:ien suorituskykyä visuaalisessa matemaattisessa päättelyssä ja paljastimme, että mallin vastaussuorituskyvyn ja kysymyksen sisältämien tietopisteiden välillä on ilmeinen negatiivinen korrelaatio.
Lisäksi havaitsimme, että useimmissa malleissa on ongelmia muistioppimisen (RM) kanssa, ja riittämätön tieto (IK) on LMM:ien suurin puute. GPT-4o:n päähaaste on kuitenkin vähitellen siirtynyt IK:stä IG:hen, mikä osoittaa, että se on ensimmäinen malli, joka siirtyy seuraavaan vaiheeseen. Lopuksi, analyysimme KCA-strategioista ja virhetapauksista valaisee entisestään olemassa olevien LMM:ien kehitystä kohti ihmisen kaltaista visuaalista matemaattista päättelyä.