uutiset

2B multimodaalinen uusi SOTA! Huake ja Etelä-Kiinan teknillinen yliopisto julkaisivat Mini-Monkeyn, joka on erikoistunut "viipalointiin resoluution lisäämiseksi"

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: LRST Niin unelias

[Johdatus uuteen viisauteen]Mini-Monkey on kevyt multimodaalinen suuren mittakaavan kielimalli, joka lievittää tehokkaasti perinteisten kuvien segmentointistrategioiden aiheuttamaa alias-vaikutusta käyttämällä monimuotoista adaptiivista segmentointistrategiaa (MSAC) ja mittakaavan pakkausmekanismia (SCM). -resoluutiokuvankäsittely- ja asiakirjojen ymmärtämiseen liittyvät tehtävät. Se saavuttaa johtavia tuloksia useissa vertailuissa, mikä osoittaa sen potentiaalin multimodaalisen ymmärryksen ja dokumenttiälyn aloilla.

Viime aikoina multimodaalisten suurten mallien kyvyn parantaminen korkearesoluutioisten kuvien käsittelyssä on herättänyt yhä enemmän huomiota tällä alalla.

Useimmat menetelmät keskittyvät parantamaan multimodaalisten suurten mallien kykyä ymmärtää kuvan yksityiskohtia kuvien segmentointi- ja uudelleensulatusstrategian avulla.

Kuvan segmentointitoiminnasta johtuen on kuitenkin väistämätöntä aiheuttaa kohteen ja siihen liittyvien alueiden pirstoutumista, mikä vaikuttaa pienten tai epäsäännöllisen muotoisten kohteiden MLMM:ien tunnistuskykyyn. Tämä ilmiö on erittäin ilmeinen asiakirjojen ymmärtämistehtävissä, koska tekstipuoli usein katkeaa.

Vastauksena tähän haasteeseen Huazhongin tiede- ja teknologiayliopisto ja Etelä-Kiinan teknillinen yliopisto julkaisivat äskettäin yhdessä multimodaalisen suuren Mini-Monkey-mallin, joka käyttää kytkettävää monimuotoista adaptiivista strategiaa (MSAC) kevyisiin multimodaalisiin suuriin malleihin. .

Mini-Monkey luo adaptiivisesti monimittakaavaisia ​​esityksiä, jolloin malli voi valita segmentoimattomia objekteja eri asteikoista, ja sen suorituskyky saavuttaa 2B-multimodaalisten suurten mallien uuden SOTA:n.


Paperiosoite: https://arxiv.org/pdf/2408.02034

Projektin osoite: https://github.com/Yuliang-Liu/Monkey

MSAC:n aiheuttaman laskennallisen kuorman vähentämiseksi ehdotamme skaalauksen pakkausmekanismia (SCM), joka pakkaa kuvatunnisteet tehokkaasti.

Mini-Monkey ei ainoastaan ​​saavuttanut johtavaa suorituskykyä useissa asiakirjojen älykkyyden tehtävissä, vaan saavutti myös johdonmukaisia ​​suorituskyvyn parannuksia yleisissä multimodaalisen mallin ymmärtämistehtävissä, jolloin saavutettiin 2B SOTA -suorituskyky.

OCRBenchissä Mini-Monkey sai 802 pistettä, mikä on parempi kuin mallit, joissa on suuremmat parametrit, kuten GLM-4v-9B.


Kuva 3 Menetelmän lohkokaavio: H-Attn edustaa alhaista huomiopainoa, jaettu LLM-kerros edustaa lohkokerrosta SCM:ssä;

Tutkimus tausta

Multimodaaliset suuret kielimallit (MLMM) ovat herättäneet paljon huomiota viime vuosina. Tutkijat tutkivat aktiivisesti tehokkaita tapoja integroida visuaaliset kooderit LLM:n kanssa.

Jotkut menetelmät, kuten Flamingo, BLIP-2, MiniGPT4 ja Qwen-VL ja LLaVA, ovat saavuttaneet nämä saavutukset, mutta aikaisemmat multimodaaliset suuret kielimallit eivät ole saavuttaneet yksityiskohtaista kohtauksen ymmärtämistä hyvin rajoitetun käsittelyresoluution vuoksi.


Kuva 1 Segmentoinnin aiheuttama alias-vaikutus universaaleihin objekteihin: (a) syöttökuva (b) segmentoinnin laajennusstrategia (d) monimittainen adaptiivinen segmentointistrategia;

Tutkijat alkoivat ratkaista tätä ongelmaa laajentamalla kuvan tuloresoluutiota. Viipalointistrategia on yksi yleisimmin käytetyistä menetelmistä. Esimerkiksi Monkey, LLaVA 1.6, InternVL 1.5 ja LLama3-V jne.

Huolimatta merkittävästä edistymisestä multimodaalisissa laajamittaisissa kielimalleissa, segmentointistrategioiden vuoksi on edelleen haasteita yksityiskohtaisessa kohtauksen ymmärtämisessä.

Kuvien segmentointitoiminnot segmentoivat väistämättä objekteja ja toisiinsa liittyviä alueita, mikä heikentää MLLM:n kykyä tunnistaa pieniä esineitä tai epäsäännöllisen muotoisia objekteja, erityisesti asiakirjojen ymmärtämisen yhteydessä.

Tämä strategia esittelee kahden tyyppistä semanttista epäyhtenäisyyttä:

1. Jos objekti tai merkki on segmentoitu, sitä ei ehkä tunnisteta. Esimerkiksi segmentoitu nenä näyttää hyvin paljon apinalta, kuten kuvassa 1(b);

2. Jos sana tai lause on segmentoitu, se aiheuttaa semanttista vahinkoa segmentoidulle sanalle. Esimerkiksi sana "luokkahuoneet" voidaan jakaa "luokkaan" ja "huoneisiin", mikä aiheuttaisi semanttista vahinkoa segmentoiduille sanoille.

Yksinkertaisuuden vuoksi kirjoittajat kutsuvat tätä ongelmaa sahavaikutteeksi. Hyvin suoraviivainen idea on käyttää päällekkäistä segmentointistrategiaa tämän ongelman ratkaisemiseksi, kuten kuvassa 1(c).

Kirjoittajat havaitsivat kuitenkin, että päällekkäinen segmentointistrategia loi tiettyjä illuusioita, jotka johtivat suorituskyvyn heikkenemiseen eikä paranemiseen.

Menetelmä ideoita

Kirjoittaja ehdottaa Mini-Monkeya, kevyttä multimodaalista laajamittaista kielimallia, joka on suunniteltu lievittämään segmentointistrategioiden aiheuttamaa sahanhammasilmiötä. Menetelmän lohkokaavio on esitetty kuvassa 2.


Kuva 2 Tekstikuvien rajaamisen aiheuttama rosoinen vaikutus.

Toisin kuin olemassa olevat menetelmät, jotka segmentoivat suoraan syötekuvan, Mini-Monkey ottaa käyttöön plug-and-play-lähestymistavan, jota kutsutaan Multi-Scale Adaptive Segmentation Strategy (MSAC) -strategiaksi.

MSAC voi tehokkaasti täydentää ominaisuuksia eri mittakaavassa, kuten kuvassa 1(d).

Monimuotoinen adaptiivinen segmentointistrategia (MSAC)

MSAC suorittaa ensin kerrostuksen näille verkoille ja jakaa ne kolmeen ryhmään niiden kuvasuhteen perusteella. Tekijä valitsee kullekin tasolle kuvasuhteen. Eri tasot tarjoavat mallille erilaisia ​​tietoja.

Yksityiskohtainen kerros on vastuussa yksityiskohtaisten tietojen toimittamisesta. Se rajoittaa sekä kuvan maksimiresoluutiota että pienintä kuvan resoluutiota, mikä tekee kuvasta mahdollisimman suuren ja tekee kuvassa olevista kohteista selkeämpiä. Kuvan rajaamiseen käytetystä segmentointistrategiasta johtuen tämän kerroksen luomissa kuvissa voi olla semanttisia epäjohdonmukaisuuksia.

Siksi kirjoittajat käyttävät mukautuvia kerroksia yhdessä yksityiskohtakerrosten kanssa, jotta malli voi valita segmentoimattomia objekteja eri mittakaavoja. Mukautuva kerros luo adaptiivisesti kuvasuhteen yksityiskohtakerroksen mukaan varmistaen, että yksityiskohtakerroksen segmentointiviiva ei mene päällekkäin adaptiivisen kerroksen segmentointiviivan kanssa, mikä estää saman kohteen segmentoinnin kahdesti eri kerroksille. Tämä prosessi varmistaa, että yksityiskohtakerros ja mukautuskerros tarjoavat mallille erilaisia ​​semanttisia tietoja ja visuaalisia ominaisuuksia.

mittakaavan pakkausmekanismi

MSAC saattaa lisätä laskennallisia lisäkustannuksia. Siksi kirjoittaja ehdottaa mittakaavan pakkausmekanismia (SCM) tilanteisiin, joissa on laskennallisia yleiskustannuksia koskevia rajoituksia. SCM on mekanismi, joka ei vaadi koulutusta eikä parametreja laskennallisen yleiskuorman vähentämiseksi.

Kirjoittaja valitsee mukautuvan kerroksen visuaaliset tunnukset, globaalin kerroksen visuaaliset tunnukset ja tekstitunnisteet keskittyäkseen yksityiskohtakerroksen visuaalisiin merkkeihin ja luo sitten huomiokartan ja poimii sitten ylimmän K:n visuaaliset ominaisuudet. huomiokartalta.

Hyvin koulutettu LLM voi tehokkaasti valita tarvittavat visuaaliset ominaisuudet syöttöongelman perusteella. Siksi SCM käyttää LLM:n ensimmäistä ja toista kerrosta visuaalisten tokenien valitsemiseen ilman lisäparametreja.

Mini-Monkeyn vahvin 2B-multimodaalinen suuri malli

Kirjoittajat testasivat menetelmäään yleisellä multimodaalisen ymmärryksen ja dokumenttien ymmärtämisellä. Kokeet osoittavat, että Mini-Monkey saavutti parhaan suorituskyvyn yleisessä multimodaalisessa ymmärtämisessä ja dokumenttien ymmärtämisessä samanaikaisesti 2B-parametreilla.


Taulukko 1 Yleisen multimodaalisen ymmärryksen tulokset


Taulukko 2 Tulokset asiakirjan ymmärtämisestä

Kirjoittaja vertaa ehdotettua MSAC:ta olemassa oleviin menetelmiin. Ensimmäinen rivi on dynaaminen segmentointimenetelmä, toinen rivi on kiinteän resoluution segmentointimenetelmä, kolmas rivi on päällekkäinen segmentointi ja neljäs rivi on monimittainen strategia S2.


Taulukossa 3 verrataan erilaisia ​​segmentointistrategioita

MSAC:ia voidaan soveltaa erilaisiin multimodaalisiin arkkitehtuureihin, vakauttaen ja parantaen

Samanaikaisesti kirjoittaja sovelsi MSAC:ta myös muihin vertailumenetelmiin, ja on havaittavissa johdonmukaisia ​​parannuksia yleisessä multimodaalisen ymmärryksen ja dokumenttien ymmärtämisen tehtävissä.


Taulukko 4 soveltaa MSAC:ta eri kehyksiin

Helpota tehokkaasti segmentoinnin aiheuttamia "jälkiä" resoluution lisäämiseksi

Samalla kirjoittaja tarjoaa myös kvalitatiivisen analyysin, kuten kuvassa 4. Kirjoittaja kysyy kysymyksiä segmentoiduista paikoista, kuten "luokkahuoneista" ja "kouluista", jotka on segmentoitu.

Voidaan nähdä, että Mini-Monkey voi tehokkaasti lievittää "jälkiä", jotka aiheutuvat segmentoinnin resoluution lisäämisestä MSAC:n kautta.


Kuva 4 Laadulliset tulokset: (a) syötekuva ja perustotuus (b) tulokset käyttämällä päällekkäistä segmentointistrategiaa, (c) internv2-26b:n tulokset;

Visuaalinen vertailu

Mini-Monkey pystyy poimimaan tarkasti tekstisisällön moniselitteisistä muinaisista kirjoista, kun taas MiniCPM-V 2.6 ja InternVL2-2B jättivät paljon tekstiä paitsi GPT4-O:sta.


(a) Syötä kuva


(b) Mimi-Monkey: tunnistaa tarkasti kaiken tekstin


(c)MiniCPM-V 2.6: Paljon tekstiä puuttuu.


(d)InternVL2-2B: Kokonainen lause puuttuu suhteellisen epämääräisestä tekstistä


(e)GPT-4o: Kieltäydy vastaamasta

Tee yhteenveto

Menetelmät, jotka käyttävät segmentointia resoluution laajentamiseen, segmentoivat usein objekteja ja yhdistettyjä alueita, mikä rajoittaa pienten tai epäsäännöllisen muotoisten objektien ja tekstin tunnistamista Tämä ongelma on erityisen ilmeinen kevyessä MLLM:ssä.

Tässä tutkimuksessa kirjoittaja ehdottaa Mini-Monkeya, 2B-multimodaalista suurta mallia, joka saavuttaa SOTA-suorituskyvyn. Sen tavoitteena on ratkaista olemassa olevien segmentointistrategioiden rajoitukset parantaakseen MLLM:n kykyä käsitellä korkearesoluutioisia kuvia.

Mini-Monkey ottaa käyttöön monimittaisen adaptiivisen segmentointistrategian (MSAC) luodakseen monimittakaisia ​​esityksiä, jolloin malli voi valita segmentoimattomia objekteja eri mittakaavassa, mikä helpottaa tätä ongelmaa.

Samanaikaisesti kirjoittaja varmisti myös monimuotoisen adaptiivisen segmentointistrategian tehokkuuden muiden arkkitehtuurien multimodaalisissa suurissa malleissa, mikä tarjoaa yksinkertaisen ja tehokkaan ratkaisun lievittää segmentointisuunnitelman lisääntyneen resoluution aiheuttamia "jälkiä". .

Viitteet:

[1] Chen Z, Wang W, Tian H, et ai. Kuinka kaukana olemme gpt-4v:stä? kaventaminen kaupallisiin multimodaalisiin malleihin avoimen lähdekoodin sviiteillä[J]. arXiv preprint arXiv:2404.16821, 2024.

[2] Li J, Li D, Savarese S, et ai. Blip-2: Kielikuvan esikoulutus jäädytetyillä kuvakooderilla ja suurilla kielimalleilla[C]//Kansainvälinen koneoppimisen konferenssi. PMLR, 2023: 19730-19742.

[3] Liu Y, Yang B, Liu Q, et ai. Textmonkey: Ocr-vapaa suuri multimodaalinen malli asiakirjan ymmärtämiseen[J]. arXiv preprint arXiv:2403.04473, 2024.

[4] Bai J, Bai S, Yang S, et ai. Qwen-vl: Rajanlaajuinen, laaja visiokielimalli, jolla on monipuoliset kyvyt[J]. arXiv preprint arXiv:2308.12966, 2023.

[5] Dubey A, Jauhri A, Pandey A, et al. Laama 3 -mallilauma[J]. arXiv preprint arXiv:2407.21783, 2024.