2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]
Diao Haiwen on tohtoriopiskelija Dalianin teknillisessä yliopistossa ja hänen ohjaajansa on professori Lu Huchuan. Tällä hetkellä harjoittelee Beijing Zhiyuan Artificial Intelligence Research Institutessa, ohjaajana tohtori Wang Xinlong. Hänen tutkimuskohteitaan ovat visio ja kieli, suurten mallien tehokas siirto, multimodaaliset suuret mallit jne. Toinen kirjoittaja Cui Yufeng valmistui Beihangin yliopistosta ja on algoritmitutkija Pekingin Zhiyuanin tekoälyn tutkimuslaitoksen Vision Centerissä. Hänen tutkimusalueitaan ovat multimodaaliset mallit, generatiiviset mallit ja tietokonenäkö, ja hänen päätyöhönsä kuuluu Emu-sarja.
Viime aikoina multimodaalisten suurten mallien tutkimus on ollut täydessä vauhdissa, ja teollisuus on panostanut siihen yhä enemmän. Ulkomailla on lanseerattu kuumia malleja, kuten GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) ja Grok-1.5V (xAI) jne. Samaan aikaan kotimainen GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba) jne. Mallit ovat täydessä kukassa.
Nykyinen visuaalinen kielimalli (VLM) luottaa yleensä visuaaliseen kooderiin (Vision Encoder, VE) visuaalisten ominaisuuksien poimimiseksi ja yhdistää sitten käyttäjän ohjeet suureen kielimalliin (LLM) käsittelyä ja vastaamista varten visuaalinen kooderi ja suuri kieli Mallin harjoittelun erottelu. Tämä erottelu saa visuaaliset enkooderit aiheuttamaan visuaalisen induktion harhaongelmia, kun ne ovat yhteydessä suuriin kielimalleihin, kuten rajoitettu kuvan resoluutio ja kuvasuhde sekä vahvat visuaaliset semanttiset prioriteetit. Visuaalisten kooderien kapasiteetin kasvaessa myös multimodaalisten suurten mallien käyttötehokkuus visuaalisten signaalien käsittelyssä on hyvin rajallinen. Lisäksi visuaalisten kooderien ja suurten kielimallien optimaalisen kapasiteettikonfiguraation löytäminen on muuttunut yhä monimutkaisemmaksi ja haastavammaksi.
Tätä taustaa vasten syntyi nopeasti joitain huippuluokan ideoita:
Adept AI julkaisi Fuyu-mallisarjan vuoden 2023 lopussa ja teki joitakin siihen liittyviä yrityksiä, mutta ei paljastanut koulutusstrategioita, tietoresursseja ja laitteita koskevia tietoja. Samaan aikaan Fuyu-mallin ja yleisten algoritmien välillä on merkittävä suorituskykyero julkisissa visuaalisen tekstin arviointiindikaattoreissa. Saman ajanjakson aikana tekemämme pilottikokeet osoittivat, että vaikka koulutusta edeltävän datan skaalaa kasvatetaan suuressa mittakaavassa, natiivi multimodaalinen suuri malli ilman enkooderia kohtaa silti vaikeita ongelmia, kuten hidas konvergenssinopeus ja huono suorituskyky.
Vastatakseen näihin haasteisiin Zhiyuan Research Instituten visioryhmä teki yhteistyötä kotimaisten yliopistojen, kuten Dalianin teknillisen yliopiston ja Pekingin yliopiston, kanssa lanseeratakseen uuden sukupolven koodaamattoman visuaalisen kielimallin EVE. Hienostuneiden koulutusstrategioiden ja visuaalisen lisävalvonnan avulla EVE integroi visuaalis-kielellisen esityksen, kohdistuksen ja päättelyn yhtenäiseksi puhtaaksi dekooderiarkkitehtuuriksi. Julkisesti saatavilla olevan datan avulla EVE toimii hyvin useissa visuaalisissa ja kielellisissä vertailuissa, kilpailee valtavirran enkooderiin perustuvien multimodaalisten menetelmien kanssa, joilla on samanlainen kapasiteetti ja päihittää huomattavasti Fuyu-8B:n. EVE:n ehdotetaan tarjoavan läpinäkyvän ja tehokkaan polun natiivien multimodaalisten arkkitehtuurien kehittämiseen puhtaille dekoodereille.
1. Tekniset kohokohdat
2. Mallin rakenne
Ensinnäkin se alustetaan Vicuna-7B-kielimallilla, jotta siinä on rikas kielitaito ja tehokkaat opetuksen seuraamisominaisuudet. Tämän perusteella syvävisuaalinen enkooderi poistetaan, kevyt visuaalinen koodauskerros rakennetaan, kuvan syöttö koodataan tehokkaasti ja häviöttömästi ja käyttäjän kielen komennot syötetään yhtenäiseen dekooderiin. Lisäksi visuaalinen kohdistuskerros suorittaa ominaisuuksien kohdistuksen yleisen visuaalisen kooderin kanssa parantaakseen hienorakeista visuaalisen tiedon koodausta ja esitystapaa.
2.1 Patch Embedding Layer
2.2 Patch Aligning Layer
3. Koulutusstrategia
4. Kvantitatiivinen analyysi
EVE-malli ylittää huomattavasti samankaltaisen Fuyu-8B-mallin useissa visuaalisen kielen vertailuissa ja toimii samalla tasolla kuin useat valtavirran enkooderipohjaiset visuaaliset kielimallit. Suuren visuaalisen kielen datamäärän käytön vuoksi koulutuksessa on kuitenkin haasteita vastata tiettyihin ohjeisiin tarkasti, ja sen suorituskykyä joissakin vertailutesteissä on parannettava. Jännittävää on se, että tehokkaiden koulutusstrategioiden avulla kooderiton EVE voi saavuttaa vertailukelpoisen suorituskyvyn enkooderipohjaiseen visuaaliseen kielimalliin, mikä ratkaisee pohjimmiltaan syöttökoon joustavuuden, käyttöönoton tehokkuuden ja valtavirran mallien modaalisuuden ongelmat.
Verrattuna koodereilla varustettuihin malleihin, jotka ovat alttiita ongelmille, kuten kielirakenteen yksinkertaistuminen ja rikkaan tiedon menettäminen, EVE on osoittanut suorituskyvyn asteittaista ja vakaata parannusta datan koon kasvaessa ja lähestyy vähitellen enkooderipohjaisten mallien suorituskykytasoa. Tämä voi johtua siitä, että visuaalisten ja kielten koodaus ja kohdistaminen yhdistetyssä verkossa on haastavampaa, mikä tekee kooderittomista malleista vähemmän alttiita ylisovitukselle verrattuna enkooderimalleihin.
5. Mitä ikätoverisi ajattelevat?
NVIDIA:n vanhempi tutkija Ali Hatamizadeh sanoi, että EVE on virkistävä ja yrittää ehdottaa uutta kerrontaa, joka eroaa monimutkaisten arviointistandardien rakentamisesta ja progressiivisista visuaalisen kielen mallin parannuksista.
Armand Joulin, Google Deepmindin päätutkija, sanoi, että on jännittävää rakentaa puhdas dekooderin visuaalinen kielimalli.
Applen koneoppimisinsinööri Prince Canuma sanoi, että EVE-arkkitehtuuri on erittäin mielenkiintoinen ja hyvä lisä MLX VLM -projektisarjaan.
6. Tulevaisuuden näkymät
EVE on tällä hetkellä saavuttanut rohkaisevia tuloksia enkooderittoman visuaalisen kielen mallina. Tällä polulla on joitain mielenkiintoisia suuntauksia, joita kannattaa tutkia tulevaisuudessa: