uutiset

Zhejiangin yliopiston Li Xin tiimi: Uusi menetelmä ilmaisun ymmärtämiseen viittaamiseen, ScanFormer eliminoi redundanssin karkeasta hienoon

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän artikkelin kirjoittajat ovat kaikki Zhejiangin yliopiston professori Li Xin tiimistä. Paperin ensimmäinen kirjoittaja on tohtoriopiskelija Su Wei, ja vastaava kirjoittaja on professori Li Xi (IET Fellow, National Distinguished Young Scholar). Professori Li Xin tiimi on viime vuosina julkaissut yli 180 CV/AIGC:hen liittyvää tutkimustyötä arvovaltaisissa kansainvälisissä julkaisuissa (kuten TPAMI, IJCV jne.) ja huipputason kansainvälisissä akateemisissa konferensseissa (ICCV, CVPR, ECCV jne.), ja on tehnyt yhteistyötä tunnettujen yliopistojen ja tieteellisten tutkimuslaitosten kanssa kotimaassa ja ulkomailla.

Visuaalisen kielen perustehtävänä viittaava ilmaisun ymmärtäminen (REC) paikantaa viitatun kohteen kuvasta luonnollisen kielen kuvauksen perusteella. REC-malli koostuu yleensä kolmesta osasta: visuaalinen enkooderi, tekstikooderi ja cross-modaalinen vuorovaikutus, joita käytetään poimimaan visuaalisia ominaisuuksia, tekstiominaisuuksia ja cross-modaalisten ominaisuuksien vuorovaikutusta ja parannusta.

Suurin osa nykyisestä tutkimuksesta keskittyy tehokkaiden monimuotoisten vuorovaikutusmoduulien suunnitteluun tehtävien tarkkuuden parantamiseksi, ja visuaalisia koodereita ei ole tutkittu. Yleinen lähestymistapa on käyttää luokittelu- ja tunnistustehtäviin valmiiksi koulutettuja ominaisuuspoimijoita, kuten ResNet, DarkNet, Swin Transformer tai ViT jne. Nämä mallit kulkevat kuvan kaikkien spatiaalisten paikkojen läpi poimimaan piirteitä liukuvan ikkunan tai jaetun paikan mukaan. Niiden laskennallinen monimutkaisuus kasvaa nopeasti kuvan resoluution myötä, mikä on selvempää muuntajapohjaisissa malleissa.

Kuvien spatiaalisen redundanssin ominaisuuksista johtuen taustalla on suuri määrä vähän tietoa sisältäviä alueita ja alueita, jotka ovat epäolennaisia ​​kuvan viittausilmaisun kannalta. Näiden alueiden piirteiden poimiminen samalla tavalla lisää laskennan monimutkaisuutta, mutta tekee eivät edistä ominaisuuksien tehokasta poimimista. Tehokkaampi tapa on ennakoida kuva-alueen tekstin relevanssi ja sisällön rikkaus etukäteen, poimia piirteitä kokonaan tekstiin liittyvästä etuala-alueesta ja poimia piirteitä karkeasti tausta-alueelta. Alueellisessa ennustamisessa intuitiivisempi tapa on käyttää kuvapyramidia tausta-alueen tunnistamiseen etukäteen pyramidin huipulla olevasta karkearakeisesta kuvasta ja lisätä sitten vähitellen korkearesoluutioisia hienorakeisia etualan alueita.

Yllä olevan analyysin perusteella ehdotimmeScanFormer, karkeasta hienoon iteraatiotietoinen kehys, skannaa kerros kerrokselta kuvapyramidissa, alkaen matalaresoluutioisista karkeamittakaavaisista kuvista ja suodattaa vähitellen pois epäolennaiset/tausta-alueet, jotka viittaavat lausekkeisiin laskennan hukkaan vähentämiseksi, jolloin malli voi keskittyä enemmän etualaan/tehtäviin liittyviin alueisiin. .



  • Paperin nimi: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
  • Paperilinkki: https://arxiv.org/pdf/2406.18048

Menetelmän esittely

1. Karkeasta hienoon iteraatiohavaintokehys

Rakenteen yksinkertaistamiseksi otamme käyttöön ViLT [1] -mallin, joka yhdistää tekstin ja visuaaliset modaliteetit ja jakaa sen kahteen osaan, Encoder1 ja Encoder2, syvyysulottuvuuden mukaan eri tehtäviin.

Poimi ensin tekstiominaisuudet ja tallenna ne KV-välimuistiin, sitten muodosta kuvapyramidi ja iteroi alaspäin pyramidin yläosasta. Jokaisessa iteraatiossa syötetään nykyisessä mittakaavassa valittu korjaustiedosto, ja Encoder1:tä käytetään ennustamaan seuraava vaihe. jokaista korjausta vastaava hienorakeisten paikkojen valinta yhdessä mittakaavassa. Erityisesti kaikki ylimmän tason kuvan paikat valitaan sen varmistamiseksi, että malli voi saada karkearakeista koko kuvatietoa. Encoder2 poimii edelleen ominaisuuksia ja ennustaa tämän asteikon rajoituslaatikon nykyisen asteikon [cls]-tunnuksen perusteella.

Samaan aikaan Encoder1:n ja Encoder2:n väliominaisuudet tallennetaan KV-välimuistiin myöhemmän vakiokäytön helpottamiseksi. Kun mittakaava kasvaa, hienojakoisia ominaisuuksia otetaan käyttöön, sijainnin ennustaminen on tarkempaa ja useimmat merkityksettömät paikat hylätään, jotta säästyy paljon laskelmia.

Lisäksi kunkin asteikon paikat ovat kaksisuuntaisia ​​huomioimalla kaikki edellisten asteikkojen paikat ja tekstiominaisuudet. Tämä kausaalinen huomio koko asteikolla voi edelleen vähentää laskentavaatimuksia.



2. Dynaaminen korjaustiedoston valinta

Kunkin korjaustiedoston valinta määräytyy edellisen asteikon luoman valintatekijän mukaan. Yksi on kuitenkin käytössä Encoderin kunkin kerroksen päissä H-päät, se on erittäin vaikeaa On vaikea saada tehokasta gradienttitietoa päivitystä varten, joten opittu valintatekijä ei ole ihanteellinen käytetään tässä asennossa, se on helpompi oppia Lopuksi tämä artikkeli Tämä ratkaisu hyväksyttiin.

Lisäksi on huomattava, että vaikka syöttökorjauksen upotus asetetaan arvoon 0, MHSA:n ja FFN:n olemassaolon vuoksi korjaustiedoston ominaisuuksista seuraavissa kerroksissa tulee silti ei-0 ja ne vaikuttavat muiden korjaustiedostojen ominaisuuksiin. Onneksi kun merkkijonossa on monta identtistä merkkiä, MHSA:n laskentaa voidaan yksinkertaistaa ja todellista päättelykiihtyvyyttä voidaan saavuttaa. Lisäksi mallin joustavuuden lisäämiseksi tämä artikkeli ei aseta korjaustiedoston upotusta suoraan arvoon 0, vaan korvaa sen opittavalla vakiotunnisteella.

Siksi korjaustiedoston valintaongelma muuttuu korjaustiedoston vaihto-ongelmaksi. Korjaustiedoston valintaprosessi voidaan jakaa kahteen vaiheeseen: jatkuva tunnuksen vaihto ja tunnuksen yhdistäminen. Valitsemattomat korjaustiedostot korvataan samalla vakiotunnuksella. Koska nämä valitsemattomat merkit ovat samoja, skaalattuun pistetuotehuomioon perustuvan laskentatavan mukaan nämä merkit voidaan yhdistää yhdeksi tunnukseksi ja kertoa kokonaismäärällä, mikä vastaa mittaan lisäämistä, joten pistetuotteen huomiointimenetelmä on Ei muutosta, yleiset kiihdytysmenetelmät ovat edelleen käytettävissä.



Kokeelliset tulokset

Tällä menetelmällä saavutetaan huippuluokan suorituskykyä neljällä tietojoukolla: RefCOCO, RefCOCO+, RefCOCOg ja ReferItGame. Suuren mittakaavan tietojoukkojen esikoulutuksella ja tiettyjen tietojoukkojen hienosäädöllä mallin suorituskykyä voidaan edelleen parantaa huomattavasti ja saada samanlaisia ​​tuloksia kuin esikoulutetut mallit, kuten MDETR [2] ja OFA [3].





Päättelynopeuden suhteen ehdotettu menetelmä saavuttaa reaaliaikaisen päättelynopeuden varmistaen samalla korkean tehtävän tarkkuuden.



Lisäksi kokeellisessa osassa tehtiin tilastoja myös mallin patch-valinnasta ja paikannustarkkuuden jakautumisesta kullakin asteikolla (scale1 ja scale2).

Kuten vasemmalla olevasta kuvasta näkyy, skaalan kasvaessa hienojakoisia kuvan ominaisuuksia lisätään ja mallin tarkkuus paranee vähitellen. Siksi voit yrittää lisätä varhaisen poistumismekanismin poistuaksesi ajoissa, kun paikannustarkkuus täyttää vaatimukset, välttäen lisälaskelmat korkearesoluutioisille kuville ja saavuttamalla vaikutuksen, jossa sopiva resoluutio valitaan adaptiivisesti näytteiden perusteella. Tässä artikkelissa tehtiin myös joitain alustavia yrityksiä, mukaan lukien ennustushaarojen, kuten IoU, GIoU ja epävarmuus, lisääminen ja varhaisen poistumisen indikaattoreiden palauttaminen. Kuitenkin havaittiin, että vaikutus ei ollut ihanteellinen jatkoi tutkimista.

Oikeanpuoleinen kuva näyttää korjaustiedoston valintatilanteen eri mittakaavassa. Valittujen korjaustiedostojen osuus on kaikissa mittakaavassa suhteellisen pieni, ja suurin osa korjauksista voidaan poistaa, joten laskentaresursseja voidaan säästää tehokkaasti. Jokaisessa näytteessä (kuva + viitelauseke) todella valittujen laastarien määrä on suhteellisen pieni, noin 65 % kokonaismäärästä.



Lopuksi kokeellinen osa näyttää joitain visualisointituloksia Asteikon kasvaessa (punainen → vihreä → sininen), mallin paikannustarkkuus paranee vähitellen. Lisäksi valitusta paikasta rekonstruoidun kuvan mukaan mallissa huomioidaan vain tausta-alueen karkea mittakaavatieto, ja asiaankuuluvalla etualalla malli pystyy kiinnittämään huomiota hienorakeisiin yksityiskohtiin. tiedot.



Aiheeseen liittyvää kirjallisuutta:

[1].Kim W, Son B, Kim I. Vilt: Vision-and-language transformer ilman konvoluutiota tai aluevalvontaa [C]//Kansainvälinen koneoppimiskonferenssi. PMLR, 2021: 5583-5594.

[2]. Kamath A, Singh M, LeCun Y, et ai. Mdetr-moduloitu tunnistus päästä päähän multimodaalista ymmärtämistä varten [C]//Kansainvälisen IEEE/CVF-konferenssin julkaisut tietokonenäöstä. 2021: 1780-1790.

[3]. Wang P, Yang A, Men R, et ai. Ofa: Arkkitehtuurien, tehtävien ja modaliteettien yhdistäminen yksinkertaisen sekvenssistä sekvenssiin -oppimiskehyksen avulla [C]//Kansainvälinen koneoppimisen konferenssi. PMLR, 2022: 23318-23340.