uutiset

Tarvitset tämän nopean paradigman parantaaksesi GPT-4V- ja Gemini-tunnistustehtävien suorituskykyä

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän artikkelin kirjoittajat ovat Zhejiangin yliopistosta, Shanghain tekoälylaboratoriosta, Hongkongin kiinalaisesta yliopistosta, Sydneyn yliopistosta ja Oxfordin yliopistosta. Kirjoittajaluettelo: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Heistä toinen ensimmäinen kirjailija Wu Yixuan on jatko-opiskelija Zhejiangin yliopistossa ja Wang Yizhou on tieteellinen tutkimusassistentti Shanghain tekoälylaboratoriossa. Vastaava kirjoittaja Tang Shixiang on tutkijatohtori Hongkongin kiinalaisessa yliopistossa.

Multimodaaliset suuret kielimallit (MLLM) ovat osoittaneet vaikuttavia kykyjä eri tehtävissä, tästä huolimatta näiden mallien potentiaalia havaitsemistehtävissä aliarvioidaan edelleen. Kun monimutkaisissa objektintunnistustehtävissä vaaditaan tarkkoja koordinaatteja, MLLM:n hallusinaatiot saavat heidät usein huomaamaan kohdeobjekteja tai antamaan epätarkkoja rajausruutuja. Jotta MLLM:t voidaan havaita, olemassa oleva työ vaatii paitsi suuren määrän korkealaatuisten käskytietosarjojen keräämistä, myös avoimen lähdekoodin mallien hienosäätöä. Vaikka se on aikaa vievää ja työlästä, se ei myöskään hyödynnä suljetun lähdekoodin mallin tehokkaampia visuaalisia ymmärtämisominaisuuksia.Tätä varten Zhejiangin yliopisto, Shanghai Artificial Intelligence Laboratory ja Oxfordin yliopisto ehdottivatDetToolChain , uusi kehotusparadigma, joka vapauttaa multimodaalisten suurten kielimallien tunnistusvoiman. Suuret multimodaaliset mallit voivat oppia havaitsemaan tarkasti ilman koulutusta.Aiheeseen liittyvää tutkimusta on tehtyMukana ECCV 2024

MLLM:n havaitsemistehtävien ongelmien ratkaisemiseksi DetToolChain lähtee kolmesta kohdasta: (1) visuaalisten kehotteiden suunnittelu havaitsemista varten, mikä on suorempaa ja tehokkaampaa kuin perinteiset tekstikehotteet, jotta MLLM voi ymmärtää sijaintitietoja, (2) hajottaa Tarkat havaintotehtävät pieniksi ja yksinkertaisiksi tehtäviksi ja (3) ajatusketjun avulla optimoidaan asteittain havainnointitulokset ja vältetään illuusion suurista multimodaalisista malleista mahdollisimman paljon.

Yllä olevia oivalluksia vastaavasti DetToolChain sisältää kaksi avainmallia: (1) Kattava sarja visuaalisia prosessointikehotteita, jotka piirretään suoraan kuvaan ja voivat merkittävästi vähentää visuaalisen tiedon ja tekstitiedon välistä kuilua. (2) Kattava joukko havaitsemisperusteluja kehottaa parantamaan tunnistuskohteen avaruudellista ymmärtämistä ja määrittämään vähitellen lopullisen tarkan kohteen sijainnin näytteen mukaan mukautuvan tunnistustyökaluketjun avulla.

Yhdistämällä DetToolChain MLLM:ään, kuten GPT-4V ja Gemini, voidaan tukea erilaisia ​​tunnistustehtäviä ilman ohjeiden viritystä, mukaan lukien avoimen sanaston havaitseminen, kuvauskohteen tunnistus, viittausilmaisujen ymmärtäminen ja suunnatun kohteen tunnistus.



Paperin otsikko: DetToolChain: Uusi kehotusparadigma MLLM:n havaitsemiskyvyn vapauttamiseksi

Paperilinkki: https://arxiv.org/abs/2403.12488

Mikä on DetToolChain?



Kuva 1 DetToolChainin kokonaiskehys

Kuten kuvasta 1 näkyy, tietylle kyselykuvalle MLLM:ää kehotetaan suorittamaan seuraavat vaiheet:

I. Muotoilu: Muunna tehtävän alkuperäinen syöttömuoto sopivaksi käskymalliksi MLLM:n syötteeksi;

II Ajattele: Jaa tietty monimutkainen tunnistustehtävä yksinkertaisempiin osatehtäviin ja valitse tehokkaat kehotteet tunnistuskehotteen työkalupakkista.

III Suorita: Suorita tietyt kehotteet (kehotteet) iteratiivisesti järjestyksessä;

IV Vastaa: Käytä MLLM:n omia päättelykykyjä valvoaksesi koko tunnistusprosessia ja palauttaaksesi lopullisen vastauksen (lopullinen vastaus).

Detection Prompts Toolkit: Visual Processing Prompts



Kuva 2: Visuaalisen käsittelyn kehotteiden kaavio. Suunnittelimme (1) Aluevahvistimen, (2) Spatial Measurement Standardin, (3) Scene Image Parserin parantamaan MLLM:ien tunnistuskykyä eri näkökulmista.

Kuten kuvasta 2 näkyy, (1) Regional Amplifier pyrkii parantamaan MLLM:ien näkyvyyttä kiinnostavalla alueella (ROI), mukaan lukien alkuperäisen kuvan rajaaminen eri osa-alueille keskittyen siihen osa-alueeseen, jossa kohdeobjekti sijaitsee. lisäksi vahvistustoiminto Tämä mahdollistaa kuvan tiettyjen osa-alueiden tarkan tarkkailun.

(2) Spatial Measurement Standard tarjoaa selkeämmän vertailukohdan kohteen havaitsemiseen asettamalla viivaimen ja kompassin lineaarisilla asteikoilla alkuperäisen kuvan päälle, kuten kuvassa 2 (2). Apuviivaimet ja kompassit mahdollistavat MLLM:ien tulostamisen tarkat koordinaatit ja kulmat käyttämällä kuvan päällä olevia translaatio- ja kiertoviittauksia. Pohjimmiltaan tämä apurivi yksinkertaistaa tunnistustehtävää, jolloin MLLM:t voivat lukea objektien koordinaatit sen sijaan, että ne ennustaisivat niitä suoraan.

(3) Scene Image Parser merkitsee ennustetut objektien sijainnit tai suhteet ja käyttää spatiaalisia ja kontekstuaalisia tietoja ymmärtääkseen kuvan spatiaalisia suhteita. Scene Image Parser voidaan jakaa kahteen luokkaan:Ensinnäkin yhdelle kohdeobjektille , merkitsemme ennustetut kohteet sentroidilla, kuperilla rungoilla ja rajauslaatikoilla otsikoiden nimillä ja laatikkoindekseillä. Nämä merkit edustavat objektin sijaintitietoja eri muodoissa, minkä ansiosta MLLM pystyy havaitsemaan erimuotoisia ja -taustaisia ​​kohteita, erityisesti epäsäännöllisen muotoisia tai voimakkaasti tukkeutuneita objekteja. Esimerkiksi kupera runkomerkki merkitsee kohteen rajapisteet ja yhdistää ne kuperaan runkoon parantaakseen erittäin epäsäännöllisen muotoisten kohteiden havaitsemiskykyä.Toiseksi useille kohteille , yhdistämme eri kohteiden keskipisteet kohtauskaaviomerkkien avulla korostaaksemme kuvan objektien välisiä suhteita. Kohtauskaavion perusteella MLLM voi hyödyntää kontekstuaalisia päättelykykyään optimoidakseen ennustetut rajaavat laatikot ja välttääkseen hallusinaatioita. Esimerkiksi, kuten kuvassa 2 (3), Jerry haluaa syödä juustoa, joten niiden rajoituslaatikoiden tulee olla hyvin lähellä.

Tunnistuksen perustelukehotteiden työkalupakki: Tunnistuksen perustelukehotteet



Ennustelaatikon luotettavuuden parantamiseksi suoritimme havaitsemispäätelmäkehotteita (näkyy taulukossa 1) ennustustulosten tarkistamiseksi ja mahdollisten ongelmien diagnosoimiseksi. Ensinnäkin ehdotamme Problem Insight Guideria, joka korostaa vaikeita ongelmia ja tarjoaa tehokkaita tunnistusehdotuksia ja vastaavia esimerkkejä kyselykuville. Esimerkiksi kuvassa 3 Problem Insight Guider määrittelee kyselyn pienten kohteiden havaitsemisen ongelmaksi ja ehdottaa sen ratkaisemista lähentämällä surffilauta-aluetta. Toiseksi, hyödyntääksemme MLLM:ien luontaisia ​​tila- ja kontekstuaalisia ominaisuuksia, suunnittelimme Spatial Relationship Explorerin ja Contextual Object Predictorin varmistamaan, että tunnistustulokset ovat terveen järjen mukaisia. Kuten kuvasta 3 näkyy, surffilauta voi esiintyä yhdessä valtameren kanssa (kontekstuaalinen tieto), ja surffaajan jalkojen lähellä pitäisi olla lainelauta (tilatieto). Lisäksi käytämme Self-Verification Promoteria parantaaksemme vastausten johdonmukaisuutta useilla kierroksilla. Parantaaksemme edelleen MLLM:ien päättelykykyä otamme käyttöön laajalti käytettyjä kehotusmenetelmiä, kuten väittelyn ja virheenkorjauksen. Katso tarkempi kuvaus alkuperäisestä tekstistä.



Kuva 3 Havaitsemispäättelyn vihjeet voivat auttaa MLLM:itä ratkaisemaan pieniä esineiden tunnistusongelmia, esimerkiksi paikantamaan lainelaudan ihmisen jalkojen alta maalaisjärkeä käyttäen ja rohkaisemaan mallia havaitsemaan surffilaudat meressä.



Kuva 4 Esimerkki DetToolChainista, jota käytetään pyörivän kohteen havaitsemiseen (HRSC2016-tietojoukko)

Kokeilu: Voit ylittää hienosäätömenetelmät ilman koulutusta



Kuten taulukosta 2 näkyy, arvioimme avoimen sanaston havaitsemismenetelmäämme (OVD) testaamalla 17 uuden luokan, 48 perusluokan ja kaikkien COCO OVD -vertailussa olevien luokkien AP50-tuloksia. Tulokset osoittavat, että käyttämällä DetToolChainia sekä GPT-4V:n että Geminin suorituskyky paranee merkittävästi.



Osoittaaksemme menetelmämme tehokkuuden viittausilmaisujen ymmärtämisessä vertaamme menetelmäämme muihin RefCOCO-, RefCOCO+- ja RefCOCOg-tietosarjoissa oleviin nolla-shot-menetelmiin (taulukko 5). RefCOCO:ssa DetToolChain paransi GPT-4V:n suorituskykyä 44,53 %, 46,11 % ja 24,85 % testissä A ja test-B, mikä osoittaa DetToolChainin ylivertaisen viiteilmaisun ymmärtämisen ja suorituskyvyn nollakuvan olosuhteissa.