Luopumalla visuaalisesta kooderista tämä "natiiviversio" multimodaalinen suuri malli on myös verrattavissa valtavirran method

Luopumalla visuaalisesta kooderista tämä "natiiviversio" multimodaalinen suuri malli on myös verrattavissa valtavirran menetelmiin

2024-07-16

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Diao Haiwen on tohtoriopiskelija Dalianin teknillisessä yliopistossa ja hänen ohjaajansa on professori Lu Huchuan. Tällä hetkellä harjoittelee Beijing Zhiyuan Artificial Intelligence Research Institutessa, ohjaajana tohtori Wang Xinlong. Hänen tutkimuskohteitaan ovat visio ja kieli, suurten mallien tehokas siirto, multimodaaliset suuret mallit jne. Toinen kirjoittaja Cui Yufeng valmistui Beihangin yliopistosta ja on algoritmitutkija Pekingin Zhiyuanin tekoälyn tutkimuslaitoksen Vision Centerissä. Hänen tutkimusalueitaan ovat multimodaaliset mallit, generatiiviset mallit ja tietokonenäkö, ja hänen päätyöhönsä kuuluu Emu-sarja.

Viime aikoina multimodaalisten suurten mallien tutkimus on ollut täydessä vauhdissa, ja teollisuus on panostanut siihen yhä enemmän. Ulkomailla on lanseerattu kuumia malleja, kuten GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) ja Grok-1.5V (xAI) jne. Samaan aikaan kotimainen GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba) jne. Mallit ovat täydessä kukassa.

Nykyinen visuaalinen kielimalli (VLM) luottaa yleensä visuaaliseen kooderiin (Vision Encoder, VE) visuaalisten ominaisuuksien poimimiseksi ja yhdistää sitten käyttäjän ohjeet suureen kielimalliin (LLM) käsittelyä ja vastaamista varten visuaalinen kooderi ja suuri kieli Mallin harjoittelun erottelu. Tämä erottelu saa visuaaliset enkooderit aiheuttamaan visuaalisen induktion harhaongelmia, kun ne ovat yhteydessä suuriin kielimalleihin, kuten rajoitettu kuvan resoluutio ja kuvasuhde sekä vahvat visuaaliset semanttiset prioriteetit. Visuaalisten kooderien kapasiteetin kasvaessa myös multimodaalisten suurten mallien käyttötehokkuus visuaalisten signaalien käsittelyssä on hyvin rajallinen. Lisäksi visuaalisten kooderien ja suurten kielimallien optimaalisen kapasiteettikonfiguraation löytäminen on muuttunut yhä monimutkaisemmaksi ja haastavammaksi.

Tätä taustaa vasten syntyi nopeasti joitain huippuluokan ideoita:

Voimmeko poistaa visuaalisen kooderin, eli rakentaa suoraan suuren natiivin multimodaalisen mallin ilman visuaalista kooderia?
Kuinka tehokkaasti ja sujuvasti kehittää suuri kielimalli natiiviksi multimodaaliksi suureksi malliksi ilman visuaalisia koodereita?
Kuinka kuroa umpeen enkooderittomien alkuperäisten multimodaalisten kehysten ja valtavirran enkooderipohjaisten multimodaalisten paradigmien välinen suorituskykyero?

Adept AI julkaisi Fuyu-mallisarjan vuoden 2023 lopussa ja teki joitakin siihen liittyviä yrityksiä, mutta ei paljastanut koulutusstrategioita, tietoresursseja ja laitteita koskevia tietoja. Samaan aikaan Fuyu-mallin ja yleisten algoritmien välillä on merkittävä suorituskykyero julkisissa visuaalisen tekstin arviointiindikaattoreissa. Saman ajanjakson aikana tekemämme pilottikokeet osoittivat, että vaikka koulutusta edeltävän datan skaalaa kasvatetaan suuressa mittakaavassa, natiivi multimodaalinen suuri malli ilman enkooderia kohtaa silti vaikeita ongelmia, kuten hidas konvergenssinopeus ja huono suorituskyky.

Vastatakseen näihin haasteisiin Zhiyuan Research Instituten visioryhmä teki yhteistyötä kotimaisten yliopistojen, kuten Dalianin teknillisen yliopiston ja Pekingin yliopiston, kanssa lanseeratakseen uuden sukupolven koodaamattoman visuaalisen kielimallin EVE. Hienostuneiden koulutusstrategioiden ja visuaalisen lisävalvonnan avulla EVE integroi visuaalis-kielellisen esityksen, kohdistuksen ja päättelyn yhtenäiseksi puhtaaksi dekooderiarkkitehtuuriksi. Julkisesti saatavilla olevan datan avulla EVE toimii hyvin useissa visuaalisissa ja kielellisissä vertailuissa, kilpailee valtavirran enkooderiin perustuvien multimodaalisten menetelmien kanssa, joilla on samanlainen kapasiteetti ja päihittää huomattavasti Fuyu-8B:n. EVE:n ehdotetaan tarjoavan läpinäkyvän ja tehokkaan polun natiivien multimodaalisten arkkitehtuurien kehittämiseen puhtaille dekoodereille.

Paperiosoite: https://arxiv.org/abs/2406.11832
Hankkeen koodi: https://github.com/baaivision/EVE
Mallin osoite: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Tekniset kohokohdat

Natiivi visuaalisen kielen malli: rikkoo valtavirran multimodaalisten mallien kiinteän paradigman, poistaa visuaalisen kooderin ja pystyy käsittelemään mitä tahansa kuvan kuvasuhdetta. Se on huomattavasti parempi kuin samantyyppinen Fuyu-8B-malli useissa visuaalisen kielen vertailuissa ja on lähellä valtavirran visuaaliseen kooderiin perustuvaa visuaalisen kielen arkkitehtuuria.
Alhaiset data- ja koulutuskustannukset: EVE-mallin esikoulutus seuloi vain OpenImagesin, SAM:n ja LAIONin julkisia tietoja, ja siinä käytettiin 665 000 LLaVA-ohjedataa ja 1,2 miljoonaa visuaalista dialogitietoa tavanomaisten ja korkean tason versioiden rakentamiseen EVE-7B:n versio. Koulutus kestää noin 9 päivää kahdella 8-A100 (40G) solmulla tai 5 päivää neljällä 8-A100 solmulla.
Läpinäkyvä ja tehokas etsintä: EVE yrittää tutkia tehokasta, läpinäkyvää ja käytännöllistä polkua alkuperäiseen visuaalisen kielen malliin tarjoamalla uusia ideoita ja arvokasta kokemusta uuden sukupolven puhtaan dekooderin visuaalisen kielen malliarkkitehtuurin kehittämiseksi tulevaisuutta varten. mallien mallista avautuu uusia suuntauksia tutkimiseen.

2. Mallin rakenne

Ensinnäkin se alustetaan Vicuna-7B-kielimallilla, jotta siinä on rikas kielitaito ja tehokkaat opetuksen seuraamisominaisuudet. Tämän perusteella syvävisuaalinen enkooderi poistetaan, kevyt visuaalinen koodauskerros rakennetaan, kuvan syöttö koodataan tehokkaasti ja häviöttömästi ja käyttäjän kielen komennot syötetään yhtenäiseen dekooderiin. Lisäksi visuaalinen kohdistuskerros suorittaa ominaisuuksien kohdistuksen yleisen visuaalisen kooderin kanssa parantaakseen hienorakeista visuaalisen tiedon koodausta ja esitystapaa.

2.1 Patch Embedding Layer

Käytä ensin yhtä konvoluutiokerrosta kuvan 2D-piirrekartan saamiseksi ja suorita sitten alinäytteistys keskimääräisen poolauskerroksen kautta;
Käytä ristiin huomioivaa moduulia (CA1) vuorovaikutukseen rajoitetussa vastaanottavassa kentässä parantaaksesi kunkin korjaustiedoston paikallisia ominaisuuksia.
Käytä <CLS>-tunnusta ja yhdistä se cross-attention-moduuliin (CA2) tarjotaksesi yleisiä tietoja jokaisesta seuraavasta korjaustiedoston ominaisuudesta.
Opittava <SPL>-tunnus lisätään jokaisen korjaustiedoston rivin loppuun, mikä auttaa verkkoa ymmärtämään kuvan kaksiulotteisen spatiaalisen rakenteen.

2.2 Patch Aligning Layer

Tallenna kelvollisen korjaustiedoston 2D-muoto, hylkää <CLS>/;
tokeneita ja käyttää mukautuvaa poolauskerrosta palauttaaksesi alkuperäisen kaksiulotteisen muodon;
Hierarkkisen ristiin huomioivan moduulin (CA3) kautta monikerroksiset verkon visuaaliset ominaisuudet on integroitu hienorakeisen kohdistuksen saavuttamiseksi visuaalisen kooderin ulostulon kanssa.

3. Koulutusstrategia

Suuren kielimallin ohjaama esikoulutusvaihe: muodostaa alkuperäisen yhteyden näkemyksen ja kielen välille, mikä luo pohjan myöhemmälle vakaalle ja tehokkaalle laajamittaiselle esikoulutukselle;
Generatiivinen esikoulutusvaihe: parantaa edelleen mallin kykyä ymmärtää visuaalis-kielellistä sisältöä ja saavuttaa sujuva siirtyminen puhtaasta kielimallista multimodaaliseen malliin;
Valvottu hienosäätövaihe: standardoi edelleen mallin kykyä seurata kieliohjeita ja oppia dialogimalleja vastaamaan eri visuaalisen kielen vaatimuksia.

Esikoulutusvaiheessa seulottiin 33 miljoonaa SA-1B:n, OpenImagesin ja LAIONin julkista dataa, ja vain kuvanäytteet, joiden resoluutio oli suurempi kuin 448×448, säilytettiin. Erityisesti LAION-kuvien suuren redundanssin ongelman ratkaisemiseksi luotiin 50 000 klusteria soveltamalla K-keskiarvoja EVA-CLIP:n poimimiin kuvaominaisuuksiin ja valittiin 300 kuvaa, jotka ovat lähinnä kutakin klusterin keskustaa valittiin 15 miljoonaa LAION-kuvanäytettä. Tämän jälkeen korkealaatuiset kuvakuvaukset luodaan uudelleen käyttämällä Emu2:ta (17B) ja LLaVA-1.5:tä (13B).
Valvotussa hienosäätövaiheessa LLaVA-mix-665K hienosäätödatasarjaa käytetään EVE-7B:n vakioversion ja sekatietosarjojen, kuten AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan, harjoittamiseen. ja Bunny-695K on integroitu EVE-7B:n korkearesoluutioversion kouluttamiseen.

4. Kvantitatiivinen analyysi

EVE-malli ylittää huomattavasti samankaltaisen Fuyu-8B-mallin useissa visuaalisen kielen vertailuissa ja toimii samalla tasolla kuin useat valtavirran enkooderipohjaiset visuaaliset kielimallit. Suuren visuaalisen kielen datamäärän käytön vuoksi koulutuksessa on kuitenkin haasteita vastata tiettyihin ohjeisiin tarkasti, ja sen suorituskykyä joissakin vertailutesteissä on parannettava. Jännittävää on se, että tehokkaiden koulutusstrategioiden avulla kooderiton EVE voi saavuttaa vertailukelpoisen suorituskyvyn enkooderipohjaiseen visuaaliseen kielimalliin, mikä ratkaisee pohjimmiltaan syöttökoon joustavuuden, käyttöönoton tehokkuuden ja valtavirran mallien modaalisuuden ongelmat.

Verrattuna koodereilla varustettuihin malleihin, jotka ovat alttiita ongelmille, kuten kielirakenteen yksinkertaistuminen ja rikkaan tiedon menettäminen, EVE on osoittanut suorituskyvyn asteittaista ja vakaata parannusta datan koon kasvaessa ja lähestyy vähitellen enkooderipohjaisten mallien suorituskykytasoa. Tämä voi johtua siitä, että visuaalisten ja kielten koodaus ja kohdistaminen yhdistetyssä verkossa on haastavampaa, mikä tekee kooderittomista malleista vähemmän alttiita ylisovitukselle verrattuna enkooderimalleihin.

5. Mitä ikätoverisi ajattelevat?

NVIDIA:n vanhempi tutkija Ali Hatamizadeh sanoi, että EVE on virkistävä ja yrittää ehdottaa uutta kerrontaa, joka eroaa monimutkaisten arviointistandardien rakentamisesta ja progressiivisista visuaalisen kielen mallin parannuksista.

Armand Joulin, Google Deepmindin päätutkija, sanoi, että on jännittävää rakentaa puhdas dekooderin visuaalinen kielimalli.

Applen koneoppimisinsinööri Prince Canuma sanoi, että EVE-arkkitehtuuri on erittäin mielenkiintoinen ja hyvä lisä MLX VLM -projektisarjaan.

6. Tulevaisuuden näkymät

EVE on tällä hetkellä saavuttanut rohkaisevia tuloksia enkooderittoman visuaalisen kielen mallina. Tällä polulla on joitain mielenkiintoisia suuntauksia, joita kannattaa tutkia tulevaisuudessa:

Suorituskyvyn lisäparannukset: Kokeissa havaittiin, että esikoulutus pelkällä visuaalis-kielellisellä datalla heikensi merkittävästi mallin kielitaitoa (SQA-pisteet putosivat 65,3 prosentista 63,0 prosenttiin), mutta paransivat vähitellen mallin multimodaalista suorituskykyä. Tämä osoittaa, että suuria kielimalleja päivitettäessä tapahtuu sisäistä katastrofaalista kielitaidon unohtamista. On suositeltavaa integroida asianmukaisesti puhdas kielellinen esikoulutusdata tai käyttää asiantuntijoiden yhdistelmästrategiaa visuaalisten ja kielellisten modaliteettien välisen häiriön vähentämiseksi.
Visio enkooderittomasta arkkitehtuurista: Sopivilla strategioilla ja korkealaatuisella datalla harjoitetuilla visuaalisten kielimallien kanssa voidaan kilpailla koodereilla varustettujen mallien kanssa. Joten mikä on näiden kahden suorituskyky samalla mallikapasiteetilla ja valtavalla harjoitustiedolla? Oletamme, että laajentamalla mallin kapasiteettia ja opetusdatan määrää kooderiton arkkitehtuuri voi saavuttaa tai jopa ylittää kooderipohjaisen arkkitehtuurin, koska edellinen syöttää kuvat lähes häviöttömästi ja välttää visuaalisen kooderin a priori biasin.
Natiivien multimodaalisten mallien rakentaminen: EVE osoittaa täysin, kuinka natiivit multimodaaliset mallit rakennetaan tehokkaasti ja vakaasti, mikä avaa läpinäkyvän ja käyttökelpoisen tavan integroida lisää modaliteettia (kuten ääni, video, lämpökuvaus, syvyys jne.) myöhemmin. Keskeisenä ideana on esikohdistaa nämä modaaliteetit jäädytetyn suuren kielimallin avulla ennen laajamittaisen yhtenäisen koulutuksen käyttöönottoa ja hyödyntää vastaavia yksimuotoisia koodereita ja kielikonseptien kohdistusta ohjauksessa.

uutiset

Luopumalla visuaalisesta kooderista tämä "natiiviversio" multimodaalinen suuri malli on myös verrattavissa valtavirran menetelmiin

Johdanto

yhteystietoni