Onko VLM kollektiivisesti "sokea"? Näkötesti epäonnistui surkeasti, GPT-4o ja Claude 3.5 molemmat epäonnistuivat

Onko VLM kollektiivisesti "sokea"?Näkötesti epäonnistui surkeasti, GPT-4o ja Claude 3.5 epäonnistuivat

2024-07-16

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen]Visuaaliset suuret kielimallit yhdessä "käännetään" alkeellisimpiin visuaalisiin tehtäviin.

Uusimmat kielimallit, kuten GPT-4o ja Gemini 1.5 Pro, määriteltiin "alkuperäisiksi multimodaalisiksi", kun ne julkaistaan, ja ne pystyvät ymmärtämään useita syöttömuotoja, kuten kuvia, ääntä ja tekstiä.

Nämä multimodaaliset LLM:t käyttävät ilmaisuja, kuten "visuaalinen kyky" ja "visuaalinen ymmärrys" asiaankuuluvissa esittelyissä, markkinoinnissa ja jopa akateemisissa papereissa.

Tämä näyttää tarkoittavan sitä, että malli pystyy näkemään ja ymmärtämään asioita tietyssä mielessä, ja tämä kyky vastaa jo ihmisen kykyä.

Tehdään siis idea: Jos visuaalisen kielen mallia testataan näön suhteen, onko heillä tavallinen näkö 5.2 tai vakava likinäköisyys vai eivätkö he näe mitään?

Uusi tutkimus osoittaa, että suurilla kielimalleilla ei itse asiassa ole odotettuja ihmisen kaltaisia visuaalisia ominaisuuksia. Totuus on, että he ovat yksinkertaisesti "sokeita".

Auburnin yliopiston ja Albertan yliopiston tutkijat testasivat neljää tämän päivän huippuluokan multimodaalista mallia joukolla hyvin yksinkertaisia näkötehtäviä ja havaitsivat, että tulokset eivät olleet tyydyttäviä.

Nämä tehtävät ovat äärimmäisen yksinkertaisia ihmisille, kuten se, menevätkö kaksi muotoa päällekkäin, kuinka monta viisikulmiota kuvassa on tai mitkä sanan kirjaimet on ympyröity.

Näiden edistyneiden mallien visio on kuitenkin parhaimmillaan "likinäköinen" ja nähdyt yksityiskohdat ovat hyvin epäselviä. Pahimmillaan malli toimii kuin "älykäs sokea mies", joka tekee joitain valistuneita arvauksia.

Paperiosoite: https://arxiv.org/pdf/2407.06581

7 päätehtävää

Nyt näkötesti alkaa virallisesti, ja VLM:n on suoritettava 7 pientä tehtävää.

Anh Nguye, paperin toinen kirjoittaja, korosti erityisesti: "Seitsemän tehtäväämme ovat hyvin yksinkertaisia, ja ihmisen suoritustarkkuus voi olla 100 %."

Joten miten tekoälymalli toimii, kun kohtaa nämä kysymykset, jotka jopa ensimmäisen luokan oppilaat voivat tehdä oikein?

Tehtävä 1: Kuinka monta leikkauspistettä kahdella polylinjalla on?

Ottaen huomioon, että VLM on suoriutunut hämmästyttävästi aikaisemmissa vertailutesteissä kaavioissa, kuten Claude 3.5 Sonnetin pisteet 94,7% AI2D:ssä ja 90,8% ChartQA:ssa, voimme kohtuudella olettaa, että tällaisen ongelman ei pitäisi olla heille ongelma.

Kuten alla olevassa kuvassa näkyy, valkoiselle kankaalle on piirretty yhteensä 150 viivakaaviota, jotka kaikki koostuvat kahdesta moniviivasta, joista jokainen on määritelty kolmella pisteellä.

Näiden kolmen pisteen x-koordinaatit ovat kiinteitä ja yhtä kaukana toisistaan, ja y-koordinaatit saadaan satunnaisotannalla, jolloin muodostuu kaksi polylinjaa, joiden leikkausnumerot ovat 0, 1 tai 2.

Kokeessa käytettiin kahta eri ilmaisua suuren mallin kysymiseksi, kuten "Kuinka monta kertaa siniset ja punaiset viivat risteävät?"

Laskemalla kunkin mallin keskimääräisen tarkkuuden, joka vastaa näihin kahteen kysymykseen, voimme poistaa joitain välittömiä vaikutuksia ja saada tarkempia tuloksia.

Vertailun vuoksi, Sonnet-3.5 toimii tässä tehtävässä hieman paremmin, keskimääräisellä tarkkuudella 77,33%, kun taas muut mallit toimivat huonommin.

Vaikka 77,33% kuulostaa hyvältä tulokselta, koska mahdollisia vastauksia on vain kolme: 0, 1 ja 2, oikea satunnaisten arvausten osuus on 33%.

On syytä huomata, että VLM:llä on taipumus toimia huonommin, kun kahden polylinen välinen etäisyys pienenee. Yhteenvetona voidaan todeta, että VLM ei voi luotettavasti tunnistaa ja laskea linjaosien leikkauspisteitä.

Tehtävä 2: Ympyröiden leikkaus-, tangentti- ja erotteluongelmat

Tämä ongelma kuuluu yläkoulun geometrian luokkaan: ympyröiden leikkaus, tangentti ja erottelu (kukaan ei muista, että opettaja piirsi ympyröitä vapaalla kädellä).

Emme kuitenkaan tarkastele VLM:ää sellaisilla termeillä, vaan annamme sille yksinkertaisen päällekkäisten muotojen testin, joka on luultavasti yksi yksinkertaisimmista kuviteltavissa olevista visuaalisista päättelytehtävistä.

Valitettavasti riippumatta siitä, menevätkö kaksi ympyrää hieman päällekkäin, vain koskettavatko vai ovatko ne tietyllä etäisyydellä, riippumatta tilanteesta, malli ei koskaan pysty tekemään oikeaa arviota.

Vertailun vuoksi, kun kaksi ympyrää ovat kaukana toisistaan, GPT-4o on oikein yli 95 % ajasta, mutta nollalla tai hyvin pienillä etäisyyksillä se on oikein vain 18 % ajasta, mikä on vähemmän kuin 50 % oikein. arvo kun arvaat satunnaisesti.

Gemini Pro 1.5 suoriutui parhaiten, keskimääräisellä tarkkuusasteella 92,78, mutta tarkkuusaste oli vain 70 %, kun kahden ympyrän välinen etäisyys oli lähellä.

Tehtävä 3: Tunnista ympyröidyt kirjaimet

Käytä punaista ympyrää ⭕ ympyröimään sanan kirjaimet yksi kerrallaan, ja tehtävä edellyttää, että VLM tunnistaa ympyröidyt kirjaimet.

Ilmeisesti tämä tehtävä on helppo ihmisille, mutta kirjoittajien hypoteesi on, että jos VLM:n näkö on hämärtynyt, se ei ehkä pysty tunnistamaan tarkkaa ympyröityä kirjainta vierekkäisten kirjainten välisen pienen etäisyyden vuoksi.

Sanat Acknowledgement, Subdermatoglyphic ja merkkijono tHyUiKaRbNqWeOpXcZvM valittiin, koska ne sisältävät eri levyisiä ja korkeita merkkejä. (Trivia, subdermatoglyfi on pisin sana ilman toistuvia kirjaimia)

Kokeessa havaittiin, että vaikka VLM tunnistaa tarkasti punaisen ympyrän muodon ja kirjoittaa sanat täydellisesti, "ympyröitettyjen kirjainten lukeminen" häiritsee kaikkia malleja. Esimerkiksi VLM-tunnistuksessa on taipumus tehdä virheitä, kun kirjaimet ovat hieman peitetty punaisilla soikeilla.

Virheiden sattuessa VLM yleensä ennustaa ympyröidyn kirjaimen vieressä olevat kirjaimet.

Joskus malli tekee hallusinaatioita ja vaikka se osaa kirjoittaa sanan tarkasti, se näyttää merkkejä, joita ei ole subdermatoglyfissa (esim. 9, n, ©).

Kaikki mallit paitsi GPT-4o toimivat hieman paremmin kahdella englanninkielisellä sanalla kuin satunnaiset merkkijonot (2–6 pistettä parempi), mikä viittaa siihen, että itse sanojen tuntemus voi auttaa VLM:ää tekemään valistuneempia arvauksia.

Gemini-1.5 ja Sonnet-3.5 ovat kaksi parasta mallia (92,81 % ja 89,22 %), lähes 20 pistettä korkeammat kuin GPT-4o ja Sonnet-3.

Kaiken kaikkiaan VLM saattaa pystyä arvaamaan, mitä ympyröidyt kirjaimet ovat sanan oikeinkirjoituksen perusteella, mikä parantaa hieman tarkkuutta, mutta se ei tarkoita, että VLM näkee punaisen ympyrän kirjaimet.

Tehtävä 4: Lukitusongelmat

Seuraavaksi VLM:n on kohdattava "lukitus"-ongelma, eli laskettava kuinka monta ympyrää lukittuu yhteen kuvassa.

Taustaäänen pitäisi kuulua tässä: Ahhhhh~ Five Rings, sinulla on yksi soitto enemmän kuin Four Rings~

Tämän testin tulokset ovat hieman outoja: kun kuvassa on viisi rengasta, malli on 100% oikea, kun yksi rengas lisää, VLM on täysin sekaisin.

Kaksoset olivat sekaisin ja vastasi väärin jopa kerran, Sonnet-3.5 onnistui oikein kolmanneksen ajasta ja GPT-4o sai sen oikein lähes puolet ajasta.

Kirjoittaja ehdotti, että "viiden renkaan" tunnistamisen tarkkuus on niin korkea, ja se liittyy läheisesti olympialaisten yhteiseen "viisi rengasta" -symboliin.

Kuten taulukosta 5 voidaan nähdä, kaikilla neljällä mallilla on taipumus laskea 5 ympyrää, mikä on paljon suurempi kuin 5 viisikulmion laskentataajuus.

Tämä testi osoittaa, että mitä tahansa nämä mallit tekevätkin, sillä ei ole "näköä" sellaisena kuin me ihmiset sen ymmärrämme. Suurin ongelma on, että niiden suorituskyky on erittäin epävakaa, ja eri numeroista ja muodoista koostuvien kuvien tunnistamisen onnistumisasteessa on valtavia eroja.

Tehtävä 5: Sisäkkäiset neliöt

Tehtävä 2 osoittaa, että VLM:llä on vaikeuksia laskea risteäviä ympyröitä. Mitä tapahtuu VLM:n suorituskyvylle, jos neliöt ovat täysin sisäkkäin toisen suuremman neliön sisällä niin, että niiden reunat eivät leikkaa?

Kuten alla olevasta kuvasta näkyy, kirjoittaja hahmontaa N∈{2,3,4,5} sisäkkäistä neliötä kankaalle, jonka koko on C×C.

Piirrä ensin uloin neliö käyttämällä satunnaista sivun pituutta d∈{2,3,4}px. Loput N-1 neliöt piirretään käyttämällä vähennyskerrointa 0,75 × d ja asetetaan satunnaisiin koordinaatteihin sen varmistamiseksi, että ne eivät kosketa ulompia neliöitä.

Luo 10 kuvaa kullekin 3 viivan paksuusasetuksesta (jossa neliöillä on eri satunnainen sijainti) ja toista prosessi kaikille N arvoille, jolloin saadaan yhteensä 120 kuvaa.

Voidaan havaita, että sisäkkäisten neliöiden lukumäärän laskeminen on VLM:n vaikea suorittaa tarkasti.

Mallin tarkkuus vaihtelee suuresti, ja GPT-4o (48,33 %) ja Gemini-1.5 (55,00 %) ovat vähintään 30 pisteellä jäljessä Gemini-1.5:stä (80,00 %) ja Claude3.5:stä (87,50 %).

Tehtävä 6: Kuinka monta saraketta ja riviä taulukossa on?

Edellisten tehtävien tulokset osoittivat, että VLM ei kyennyt käsittelemään ongelmia, kuten päällekkäisyyttä (tehtävä 4) tai sisäkkäisyyttä (tehtävä 5). Kirjoittaja päätti muuttaa VLM:n suuntaa ja tarkastella niiden suorituskykyä viereiseen grafiikkaan liittyvissä ongelmissa.

Kirjoittaja laittoi neliöt ruudukkoon ja pyysi VLM:ää laskemaan ne. Nämä VLM:t ovat toimineet hyvin DocVQA:ssa (tarkkuus ≥ 90%), joka sisältää monia kysymyksiä taulukoineen, joten tämän tehtävän pitäisi olla yksinkertainen VLM:ille.

Tehtävän yksinkertaistamiseksi kirjoittajat pyysivät mallia vain laskemaan tietyn taulukon rivien ja sarakkeiden lukumäärän.

Havaittiin, että malli ei koskaan pystynyt laskemaan oikein tyhjän ruudukon rivien ja sarakkeiden määrää.

Kuitenkin kaikkien VLM:ien suorituskyky paranee, kun ruudukkosolut sisältävät tekstiä, erityisesti Sonnet-3.5.

Tehtävä 7: Tunnista tiekartta

Tämä tehtävä testaa VLM:n kykyä tunnistaa erikoisväriset polut ja seurata tiettyä värillistä viivaa tietystä aloituspisteestä määränpäähän, mikä on tärkeä kyky karttojen lukemiseen ja ymmärtämiseen.

Alla olevan kuvan mukaisesti luo metrokartta kuvalle, jonka koko on C×C, jossa C∈{512, 1024}px.

Kirjoita 4 aseman nimeä (A, B, C, D) 4 kiinteään koordinaattiin. Jaa kangas näkymättömään 18 × 18 solun ruudukkoon ja alusta 3 polun aloituspistettä C/18 pikselin päässä kustakin asemasta.

Piirrä polku, joka alkaa satunnaisesta asemasta ja satunnainen aloituspiste käyttämällä syvyys-ensimmäistä hakualgoritmia, jossa jokainen askel voi siirtää yhtä solua mihin tahansa suuntaan. Tämä prosessi toistetaan niin, että jokaisella asemalla on N∈{1,2,3} lähtöpolkua, ja yhteensä 180 karttaa piirretään.

Kun kaksi nimettyä asemaa on annettu, tehtävä edellyttää, että VLM laskee, kuinka monta eriväristä polkua näiden kahden aseman välillä on.

Kokeellisissa tuloksissa havaittiin, että vaikka kahden aseman välillä olisi vain yksi väripolku, mikään malli ei voi saavuttaa 100 % tarkkuutta.

Suurin tarkkuus on Sonnet-3.5, joka voi saavuttaa 95 %, kun on vain yksi tie. Mutta kun teitä on kaksi, tarkkuus putoaa nopeasti vain 50,18 prosenttiin.

Kun polun monimutkaisuus lisääntyy, yhdestä polusta kolmeen, useimpien VLM:ien suorituskyky heikkenee merkittävästi.

VLM:n "sokeus".

Miksi VLM toimii erittäin epävakaasti yllä olevassa visuaalisen kyvyn testissä?

Ehkä voimme löytää vihjeitä mallin suosimasta "olympiarenkaita" tehtävästä 4. Yleisin selitys on:

VLM:n harjoitustiedoissa kuva "olympiarenkaista" esiintyy toistuvasti ja se on kuvattu yksityiskohtaisesti monissa tekstimateriaaleissa.

VLM-harjoitustiedoista ei kuitenkaan löydy 6 tai 7 lukitusrengasta, minkä vuoksi niiden vastaukset ovat epätyydyttäviä.

Koska VLM ei välttämättä tiedä, mitä he "näkevät", eivätkä he todella ymmärrä, mitä silmukka, päällekkäisyys tai mikään muu käsite on.

Kuitenkin, vaikka käytämme sokeita kuvaamaan mallin suorituskykyä, olemme silti antropomorfoimassa mallia, aivan kuten suuri malliyritys, joka edistää "visuaalista kykyään".

Tutkija Nguyen sanoi myös, että "sokeudella" on monia määritelmiä jopa ihmisille, ja tällä hetkellä ei ole sanaa kuvaamaan tekoälyn sokeutta / herkkyyttä näyttämämme kuville.

VLM:n käyttäytyminen on monimutkainen toiminto syötetekstikehotteista, syöttökuvista ja miljardeista painotuksista, eikä tällä hetkellä ole olemassa tekniikkaa, joka pystyisi visualisoimaan tarkasti, mitä malli näkee.

Hän spekuloi, että nämä mallit eivät ole täysin "sokeita". He voivat poimia kuvasta vain "likimääräistä" ja abstraktia visuaalista tietoa, mutta eivät voi tehdä visuaalisia arvioita, joten he käyttäytyvät kuin ymmärtäisivät kuvan, mutta eivät todellisuudessa näe sitä.

Nguyen käytti esimerkkiä tukemaan hyvin yllä olevaa hypoteesia:

Käyttäjä: Minkä värinen on alue, jossa kaksi ympyrää menevät päällekkäin? GPT-4o: Kahden ympyrän päällekkäinen alue on väriltään turkoosi (varjostettu syaani). Kaksoset-1.5: Vihreän ja sinisen ympyrän päällekkäinen alue on syaani. Sonnetti-3.5: Anteeksi, mutta kuvassa on vain kaksi erillistä ympyrää, yksi vihreä ja toinen sininen, eikä päällekkäistä aluetta ole.

Ilmeisesti Sonnet-3.5:tä lukuun ottamatta GPT-4o ja Gemini-1.5 vain "kuvittelevat" kuvan sen sijaan, että "näkevät" sitä.

Tarkoittaako tämä tutkimus siis, että nämä "visuaaliset" tekoälymallit ovat hyödyttömiä?

Mutta itse asiassa se ei ole. Jokainen näistä malleista on osoittanut suurta tarkkuutta monissa eri tehtävissä, kuten ihmisten toimintojen ja ilmaisujen, arjen esineiden ja ympäristökuvien tunnistamisessa.

Tämän tutkimuksen merkitys on saada meidät pettymään VLM:n liian "antropomorfisesta" markkinointistrategiasta.

Jos kuuntelemme teknologiajättien markkinointiretoriikkaa, voimme todella ajatella, että suuret visuaaliset mallit voivat "näkeä".

Mutta vain muutamalla pienellä testillä voimme helposti löytää olennaisen eron VLM:n ja ihmisten välillä. Se on "antropomorfisoitu", mikä itse asiassa korostaa sen epäinhimillistä luonnetta.

Viitteet:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/

uutiset

Onko VLM kollektiivisesti "sokea"?Näkötesti epäonnistui surkeasti, GPT-4o ja Claude 3.5 epäonnistuivat

Johdanto

yhteystietoni