uutiset

Suuret mallit ovat todella erilaisia ​​kuin ihmiset matemaattisten ongelmien ratkaisemisessa: tiedon puute on ilmeistä ja GPT-4o toimii parhaiten

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän artikkelin kirjoittajat ovat Beijing University of Posts and Telecommunications, Tencent WeChat, Huazhong University of Science and Technology ja Beijing Institute of Technology. Kirjoittajaluettelo: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhi , Li Chen , Zhang Honggang. Heidän joukossaan ensimmäinen kirjoittaja Qiao Runqi on tohtoriopiskelija Pekingin posti- ja televiestintäyliopistossa, Tan Qiuna on maisteriopiskelija Pekingin posti- ja televiestintäyliopistossa ja vastaava kirjoittaja on apulaisprofessori Zhang Honggang Beijing University of Postsista. ja televiestintä Tämän artikkelin viimeisteli Qiao Runqi työharjoittelunsa aikana WeChatissa.

Tekoälyteknologian nopean kehityksen myötä useaa modaalista tietoa käsittelevistä multimodaalisista suurista malleista (LMM) on vähitellen tullut tutkimuksen hotspot. Integroimalla tietoa eri modaliteeteista LMM:t osoittavat tiettyjä päättely- ja ymmärryskykyjä ja toimivat hyvin tehtävissä, kuten visuaalisissa kysymyksiin vastaamisessa, kuvien luomisessa ja monimuotoisessa haussa. Tämän multimodaalisen kyvyn ansiosta LMM:illä on suuri sovelluspotentiaali monissa monimutkaisissa skenaarioissa. Jotta voidaan tarkasti ja tieteellisesti testata, onko tekoälyllä vahvoja päättelykykyjä, matemaattisista kysymyksiin vastaamisesta on tullut tärkeä vertailukohta mallin päättelykykyjen mittaamisessa.

Tarkastellessamme tekoälyn kehityshistoriaa huomaamme, että ihmisen kognitiolla ja tavallamme ajatella ongelmia on ollut syvällinen vaikutus tekoälyn kehitykseen. Läpimurrot, kuten hermoverkot ja huomiomekanismit, liittyvät läheisesti ihmisen ajattelumalleihin. Kuvittele, että kun ihmiset vastaavat matemaattiseen kysymykseen, heidän täytyy ensin tutustua kysymyksessä tutkittuihin tietopisteisiin ja käyttää sitten asiaankuuluvaa tietoa vaiheittaisen päättelyn tekemiseen vastauksen löytämiseksi. Mutta kun malli vastaa, onko sen päättelyprosessi yhdenmukainen ihmisten kanssa?

Keskittyessämme matemaattisiin ongelmiin havaitsimme, että malli voi vastata monimutkaisiin kysymyksiin, mutta se ei pysty vastaamaan joihinkin yksinkertaisiin kysymyksiin. Selvittääksemme tämän ilmiön syitä ihmisten ongelmanratkaisuajattelumallien inspiroimana, mallinsimme ensin ongelmanratkaisuprosessin, jossa ensin hallitaan tietopisteet ja sitten käytetään niitä loogiseen päättelyyn seuraavasti:



Niiden joukossa (X, Y) ja (x_i, y_i) edustavat matemaattista ongelmaa ja kunkin osatehtävän kysymyksiä ja vastauksia, ja P_syy edustaa LMM:ien kattavaa sovelluskykyä (tiedon yleistys). Tämän perusteella We-Math rakensi ensin monitasoisen puutietojärjestelmän, joka perustui 67 atomitietopisteeseen, ja sitten atomitiedon ja päättelyvastausten perusteella se hajotti monimutkaisia ​​ongelmia, joissa oli useita tietopisteitä useiksi atomitietopisteiksi. Vastaavia alakysymyksiä käytetään mallin vastausmekanismin tutkimiseen.



  • 题目: WE-MATH: Saako suuri multimodaalinen mallisi ihmisen kaltaisen matemaattisen päättelyn?
  • Paperi: https://arxiv.org/pdf/2407.01284
  • Kotisivu: https://we-math.github.io/
  • Koodi: https://github.com/We-Math/We-Math
  • Tietojoukko: https://huggingface.co/datasets/We-Math/We-Math

We-Math on tällä hetkellä HuggingFace-päivälehden ensimmäisellä sijalla, ja sillä on yli 10 000 katselukertaa Twitterissä!



We-Math Benchmark

1. Tietojen koostumus

We-Math-arviointiaineisto sisältää yhteensä 6,5 000 multimodaalista peruskoulun matematiikan tehtävää ja monitasoisen tietorakenteen. Jokaisella matematiikan tehtävällä on vastaavat tietopisteet (1-3). Kaikkien kysymysten tietopisteet peitetään 5-kerroksisella tietoarkkitehtuurilla, jossa on 99 solmua (viimeinen kerros sisältää 67 tietopistettä). Ja kuten alla olevasta kuvasta näkyy, helpottaaksemme mallin luontaisia ​​ongelmia ongelman ratkaisemisessa, viittaamme oppikirjaan ja Wikipediaan ja esittelemme heuristisesti 67 tietopisteen kuvauksen, mikä tarjoaa tarvittavia tietovinkkejä päättelyprosessiin. LMM:t.





2. Pura kysymys

Mallin vastausmekanismin kohtuudella arvioimiseksi perustuimme tiukasti ihmisen vastausten standardivastauksiin ja jaoimme monimutkaisen kysymyksen n:ksi alakysymykseksi monimutkaisen kysymyksen sisältämien tietopisteiden mukaan, missä n edustaa tiedon määrää. monimutkaisen kysymyksen sisältämiä kohtia.

Kuten alla olevassa kuvassa, monimutkainen ongelma: Mary käveli pyöreän kukkapenkin pohjoisimmasta pisteestä kukkapenkin reunaa pitkin Kuljettu matka on 50,24 metriä kukkapenkki. Ongelman ratkaisuprosessissa sinun on ensin selvitettävä Marian kulkemaa polkua vastaava keskikulma ("pohjoisin") "kaakkois, luoteis" -tietopisteen perusteella ja "pohjoisimman" olosuhteiden kautta. ja "itäisimmän" suunnan kulma sen ja "itäisimmän" välillä on 90 astetta). Sitten tietopisteen "ympyrän ympärysmitta" ja ehdon, että ympyrän keskikulma on 90 astetta ja Marian kulkeman polun pituus, perusteella lasketaan pyöreän kukkapenkin ympärysmitta ja sen säde. saadaan pyöreä kukkapenkki. Lopuksi "ympyrän alueen" tietopisteen ja saadun säteen ehtojen mukaan lasketaan pyöreän kukkapenkin pinta-ala ja ongelman ratkaisu on valmis.

Analysoimalla yllä olevaa ongelmanratkaisuprosessia, jotta voidaan tutkia mallin vastausmekanismia ja mallin hienorakeista päättelykykyä, alkuperäinen kysymys voidaan jakaa kolmeen alakysymykseen niitä vastaavien tietopisteiden mukaan. Tarkemmin sanottuna ensimmäinen kysymys: Mary lähtee ympyrästä Kukkapenkin pohjoisimmasta pisteestä kukkapenkin reunan itäisimpään pisteeseen, etsi hänen kulkemansa polun kaaria vastaava keskikulman aste. Toinen kysymys: Pyöreässä kukkapenkissä , 90 asteen keskikulmaa vastaavan kaaren pituus on 59,24 m, etsi pyöreän kukkapenkin säde, kolmas kysymys: etsi ympyrän muotoisen kukkapenkin pinta-ala, jonka säde on 32 m.



3. Mittarit

Tältä pohjalta, kuten alla olevasta kuvasta näkyy, otamme käyttöön uuden neliulotteisen mittausstandardin, nimittäin riittämättömän tiedon hallinnan (IK), riittämättömän yleistyskyvyn (IG), täydellisen hallinnan (CM) ja muistimuistin (RM).

  • Riittämätön tieto (IK): Malli ei pysty vastaamaan monimutkaisiin kysymyksiin ja alakysymyksissä esiintyy virheitä. Oletamme, että syy siihen, miksi malli ei voi vastata monimutkaisiin kysymyksiin, johtuu tietopisteiden puutteesta.
  • Riittämätön yleistyskyky (IG): Malli ei voi vastata monimutkaisiin kysymyksiin, mutta kaikkiin osakysymyksiin vastataan oikein. Oletamme, että syy siihen, miksi malli ei voi vastata monimutkaisiin kysymyksiin, johtuu kattavan sovelluskyvyn (yleistämiskyvyn) puutteesta.
  • Täydellinen hallinta (CM): Malli voi vastata monimutkaisiin kysymyksiin ja voi vastata kaikkiin alakysymyksiin. Tämä ilmiö on järkevä ja odotettu.
  • Rote learning (RM): Malli voi vastata monimutkaisiin kysymyksiin, mutta alakysymyksissä tapahtuu virheitä. Jos malli pystyy ratkaisemaan monimutkaisia ​​monivaiheisia ongelmia, se ei voi vastata ratkaisuprosessissa vaadittuihin kysymyksiin Mielestämme tämä tilanne on kohtuuton ja harkitsemme tapausta, jossa mallissa on mekaaninen muisti.



Niiden joukossa on IK IK:n, IG:n ja CM:n välillä

Kokeilut ja johtopäätökset

We-Math on tällä hetkellä suorittanut arvioinnit 17 suuresta mallista, mukaan lukien yhteensä 4 suljetun lähdekoodin mallia ja 13 avoimen lähdekoodin mallia. Taulukossa 1 ja kuvassa 6 on esitetty LMM:ien tulokset eri tietopistemäärillä ja mallin suorituskyky toisen tason tietopisteiden alla. ja Kattavat pisteytystulokset tiukoilla ja löysillä standardeilla. Kuva 10 esittää KCA-strategian lieventämistuloksia mallille IK-ongelmissa.

LMM:ien suorituskyky eri tietopistemäärillä ja sen suorituskyky toisen tietopistetason alaisuudessa



  • Mallin vastaustilanteen ja kysymyksen sisältämien tietopisteiden välillä on ilmeinen negatiivinen korrelaatio, eli mitä enemmän tietopisteitä kysymyksessä on, sitä vähemmän ideaalinen mallin vastaustilanne on. Ehdotamme myös, että kysymyksen vaikeus voidaan mallintaa sen sisältämien tietopisteiden lukumäärällä.
  • Malli toimii paremmin laskemiseen liittyvissä tietopisteissä ja huonommin hienojakoisissa visuaalisissa ongelmissa. Se osoittaa myös, että LMM:t ovat hyviä soveltamaan kaavoja, mutta niillä on silti rajoituksia sovelletun tiedon ymmärtämisessä ja syntetisoinnissa.
  • GPT-4o toimii parhaiten pysyen edellä kysymyksissä, jotka sisältävät eri määrän tietopisteitä, ja periaatteessa pysymällä edellä eri tietopisteissä.
  • LMM:issä on potentiaalia parametrien pakkaamiseen. Eri LMM:istä LLaVA-NeXT-110B toimii lähinnä GPT-4:ää. Yllättävää on, että pienestä parametrimittakaavasta huolimatta mallit, kuten InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2, osoittavat myös hyvää suorituskykyä.

LMM:ien suorituskyky neliulotteisten indikaattoreiden alaisuudessa ja niiden kattavat pisteytystulokset tiukoilla ja löysillä standardeilla





  • Useimmat mallit kärsivät "riittämättömän tiedon" ja "muistin muistamisen" ongelmista, erityisesti pienemmissä malleissa. Lisäksi "riittämätön tieto" on edelleen useimpien mallien pääongelma.
  • GPT-4o on huomattavasti muita malleja edellä "rote learning" -mittausulottuvuuden suhteen, mikä edelleen osoittaa, että GPT-4o on lähempänä ihmisen ongelmanratkaisumenetelmiä ja sen esittämät tulokset ovat luotettavampia, mikä tarkoittaa, että mallilla on aidosti opittua tietoa kuin "muistaa ulkoa".
  • GPT-4o on merkittävästi edellä muita malleja "riittämättömän tiedon hallinnan" mittausulottuvuuden suhteen. Se on vähitellen siirtynyt seuraavaan vaiheeseen ja sen on parannettava edelleen "tiedon yleistyskykyään".

LMM:ien suorituskyky KCA-strategian mukaisesti



  • Mallin kokonaissuorituskyky on parantunut KCA-strategian myötä. Kuten yllä olevasta kuvasta näkyy, LMM:t, joilla on erikokoiset parametrit, osoittavat johdonmukaisia ​​suorituskyvyn parannuksia sekä tiukoissa että löyhissä indikaattoreissa KCA-strategian käyttöönoton jälkeen.
  • KCA-strategia lievittää merkittävästi IK-ongelmaa, mutta IG-ongelman paraneminen ei ole ilmeistä. Tämä on sopusoinnussa ihmisen intuition kanssa, koska tiedon kuvaus käsittelee pääasiassa johtopäätöksen tiedon aukkoja. IG-ongelman ratkaisemiseksi LMM:iden tiedon yleistyskykyä on kuitenkin parannettava kokonaisvaltaisesti, mikä osoittaa myös suuntaa tulevalle tutkimukselle.

Tee yhteenveto

Tässä artikkelissa ehdotamme WE-MATHia, kattavaa vertailukohtaa LMM:iden vastausmekanismien hienorakeiseen arviointiin visuaalisissa matemaattisissa päättelytehtävissä. WE-MATH sisältää yhteensä 6,5 000 visuaalista matematiikan tehtävää, jotka kattavat 5 kerroksen ja 67 tietopisteen monitasoisen tietorakenteen. Teimme ongelman edelläkävijänä jakamalla sen useiksi alakysymyksiksi vaadittujen tietopisteiden perusteella ja otimme käyttöön uuden neliulotteisen indikaattorin hienorakeista päättelyn arviointia varten. WE-MATHin avulla arvioimme kattavasti olemassa olevien LMM:ien suorituskykyä visuaalisessa matemaattisessa päättelyssä ja paljastimme, että mallin vastaussuorituskyvyn ja kysymyksen sisältämien tietopisteiden välillä on ilmeinen negatiivinen korrelaatio.

Lisäksi havaitsimme, että useimmissa malleissa on ongelmia muistioppimisen (RM) kanssa, ja riittämätön tieto (IK) on LMM:ien suurin puute. GPT-4o:n päähaaste on kuitenkin vähitellen siirtynyt IK:stä IG:hen, mikä osoittaa, että se on ensimmäinen malli, joka siirtyy seuraavaan vaiheeseen. Lopuksi, analyysimme KCA-strategioista ja virhetapauksista valaisee entisestään olemassa olevien LMM:ien kehitystä kohti ihmisen kaltaista visuaalista matemaattista päättelyä.