uutiset

Katso 2 tunnin elokuva 4 sekunnissa! Alibaba julkaisee yleisen multimodaalisen suuren mallin mPLUG-Owl3 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Katsottuaan 2 tunnin elokuvan 4 sekunnissa Alibaba-tiimin uudet saavutukset paljastettiin virallisesti...

rullata ulosUniversaali multimodaalinen iso malli mPLUG-Owl3, jota käytetään erityisesti useiden kuvien ja pitkien videoiden ymmärtämiseen.



Tarkemmin ottaen LLaVA-Next-Interleave vertailukohtana, mPLUG-Owl3First Token Latency kutistui 6 kertaa, ja yhdellä A100:lla mallinnettavissa olevien kuvien määrä on kasvanut 8-kertaiseksi saavuttaen400 kuvaa, varsinaisen testin mukaan voit katsoa 2 tunnin elokuvan 4 sekunnissa.

Toisin sanoen mallin päättelytehokkuus on parantunut huomattavasti.

jaMallin tarkkuudesta tinkimättä

mPLUG-Owl3 saavutti myös monia vertailuarvoja useissa multimodaalisissa suurissa malleissa, mukaan lukien yksikuva-, monikuva- ja videokentät.SOTA



Paperin kirjoittaja on kotoisinAlibaba mPLUG -tiimi, he ovat olleet syvästi mukana multimodaalisissa suurissa mallikantoissa, ja ennen sitä he ehdottivat myös:

  • Tehokas multimodaalinen perus mPLUG-sarja
  • Modulaarinen multimodaalinen suurikielinen mallipohja mPLUG-Owl-sarja
  • Asiakirjan ymmärtämisen perusta mPLUG-DocOwl-sarja

Katsotaanpa mitä mustaa tekniikkaa tämä mPLUG-Owl3-julkaisu tuo mukanaan.

Pelin kulku avattu

Ryhmä esitteli useita yleisiä mPLUG-Owl3:n käyttötapoja.

Multimodaalisen haun tehostaminen

Yleisesti ottaen on yleinen käytäntö täydentää sitä tietoa, jota malli ei ole oppinut hakujärjestelmän kautta. Tämä edellyttää, että malli ymmärtää tarkasti tulevan multimodaalisen tiedon ja käyttää sitä kysymyksiin vastaamiseen.

Seuraavassa esimerkissä mPLUG-Owl3 ei voi vain vastata oikein haetun tiedon perusteella, vaan myös antaa senMihin tietoon tuomio perustuu?ja antaa yksityiskohtainen arviointiperuste. Tämä on erittäin ystävällinen loppupään T&K-henkilöstölle kehitystä ja virheenkorjausta varten.

Etsi osa: Alla on useita multimodaalisia tietoja, jotka on haettu, jotta voit tehdä päätöksen.

Esitä kysymys: Voitko edellä olevista neljästä koirakuvasta havainnojesi perusteella luokitella kuvan 5 koiran? Anna syyt.

vastaus: Neljän koirakuvan havaintojen perusteella kuvan 5 koira voidaan luokitella irlantilaisterrieriksi. Kuvan 1 koira on kuvattu irlantilaisterrieriksi ja kuvan 5 koiralla on samanlaiset fyysiset ominaisuudet kuin kuvan 1 koiralla…



Monigraafinen päättely

Tällaisia ​​tilanteita tulee usein elämässä...

Monet käyttäjät eivät keskustele vain yhden kuvan ympärillä, vaan käyttäjällä voi olla useita materiaaleja, ja mallin tulee pystyä ymmärtämään oikein eri materiaalien sisällön välinen suhde.

Alla olevassa esimerkissä mPLUG-Owl3 voi aktivoida kielimallin maalaisjärkeä tuntemuksen kahdessa kuvassa näkemänsä kautta ja järkeillä näiden kahden kuvan ympärillä.

Esitä kysymys: Voiko vasemmalla oleva eläin selviytyä oikeanpuoleisessa ympäristössä? Vastauksia ja selityksiä tarvitaan.

vastaus(Oikea vastaus on merkitty vihreällä): Yleinen ajatus on, että se ei selviä, koska ympäristö on liian kylmä.



Toisessa esimerkissä mPLUG-Owl3 ei voi vain havaita kahden kuvan välistä tyylieroa, vaan myös ymmärtää, että vaikka kahden kuvan hahmot ovat eri tyylisiä, ne ovat itse asiassa sama hahmo.

ensimmäisen kerran kysymys: Mitä taidetyylejä kuvassa on kuvattu ja miten ne eroavat toisistaan?

vastaus: Ensimmäinen kuva on pikselityylinen, toinen kuva sarjakuvatyylinen... (syitä)

toinen kysymys: Kuka esiintyy molemmissa maalauksissa? Mitkä ovat niiden ominaisuudet?

vastaus: Molemmissa maalauksissa esiintyy cowboyhattua pukeutunut mies, joka on kuvattu kahdella eri tyylillä.



Pitkä video ymmärrys

Erittäin pitkien videoiden katsominen on tehtävä, jota useimmat nykyiset mallit eivät pysty suorittamaan päästä päähän. Jos se perustuu Agent-kehykseen, on vaikea taata vastausnopeutta.

mPLUG-Owl3 voi katsoa 2 tunnin elokuvan jaAloita vastaaminen käyttäjien kysymyksiin 4 sekunnissa

Kysyipä käyttäjä erittäin yksityiskohtaisista leikkeistä elokuvan alussa, keskellä tai lopussa, mPLUG-Owl3 voi vastata niihin sujuvasti.



Miten teit sen?

Toisin kuin perinteiset mallit, mPLUG-Owl3Visuaalista järjestystä ei tarvitse liittää etukäteen kielimallin tekstisekvenssiin

Toisin sanoen, riippumatta siitä, mitä syötetään (kymmeniä kuvia tai tunteja videota), se ei vie kielimallin sekvenssikapasiteettia, mikä välttää pitkien visuaalisten sekvenssien aiheuttaman valtavan laskennallisen lisärasituksen ja videomuistin käytön.

Joku saattaa kysyä, miten visuaalinen tieto integroituu kielimalliin?



Tämän saavuttamiseksi ryhmä ehdotti aKevyt Hyper Attention -moduuli, joka voi laajentaa olemassa olevaa Transformer Blockia, joka voi vain mallintaa tekstiä uudeksi moduuliksi, joka voi suorittaa sekä graafisten että tekstiominaisuuksien vuorovaikutuksen ja tekstin mallintamisen.



Leviämällä harvakseltaan koko kielimallissa4Transformer Block, mPLUG-Owl3 voi päivittää LLM:n multimodaaliksi LLM:ksi erittäin pienellä hinnalla.

Kun visuaaliset ominaisuudet on poimittu visuaalisesta kooderista, mitat kohdistetaan kielimallin mittoihin yksinkertaisella lineaarisella kartoituksella.

Myöhemmin visuaaliset ominaisuudet ovat vuorovaikutuksessa vain näiden neljän Transformer Block -kerroksen tekstin kanssa. Koska visuaalista merkkiä ei ole pakattu, hienojakoiset tiedot voidaan säilyttää.

Katso allaMiten hyperattention on suunniteltu?

Jotta kielimalli voisi havaita visuaalisia piirteitä, Hyper Attention esittelee aRisti huomioToiminnassa visuaalisia ominaisuuksia käytetään avaimena ja arvona, ja kielimallin piilotilaa käytetään kyselynä visuaalisten ominaisuuksien poimimiseen.

Viime vuosina muut tutkimukset ovat harkinneet Cross-Attentionin käyttöä multimodaaliseen fuusion, kuten Flamingo ja IDEFICS, mutta nämä työt eivät ole saavuttaneet hyvää suorituskykyä.

MPLUG-Owl3:n teknisessä raportissa tiimiVertaamalla Flamingon suunnittelua, selittääksesi lisää Hyper AttentionTärkeimmät tekniset kohdat



Ensinnäkin, Hyper Attention ei ota käyttöön Cross-Attention- ja Self-Attention-sarjan rakennetta, vaan se on upotettu Self-Attention-lohkoon.

Sen etuna on, että se vähentää huomattavasti uusien lisäparametrien määrää, mikä tekee mallista helpommin opeteltavan, ja koulutusta ja päättelytehoa voidaan edelleen parantaa.

Toiseksi Hyper Attention -valintaLayerNorm jaetuille kielimalleille, koska LayerNormin jakelutulos on vakaa jakelu, jonka Attention-taso on opettanut. Tämän kerroksen jakaminen on ratkaisevan tärkeää vasta esitellyn Cross-Attentionin vakaalle oppimiselle.

Itse asiassa Hyper Attention ottaa käyttöön rinnakkaisen Cross-Attention- ja Self-Attention-strategian, jossa käytetään jaettua kyselyä visuaalisten ominaisuuksien vuorovaikutukseen ja integroidaan nämä kaksi ominaisuutta mukautuvan portin kautta.

Tämän ansiosta Query voi valikoivasti valita asiaankuuluvat visuaaliset ominaisuudet oman semantiikansa perusteella.

Team Discovery, kuvasuhteellinen asema tekstiin alkuperäisessä kontekstissaMallille on erittäin tärkeää ymmärtää paremmin multimodaalinen syöte.

Tämän ominaisuuden mallintamiseksi he ottivat käyttöön multimodaalisen lomitetun pyörimisasennon, joka koodaa MI-Ropea, mallintaakseen visuaalisen avaimen sijaintitietoja.

Tarkemmin sanottuna he nauhoittivat etukäteen kunkin kuvan sijaintitiedot alkuperäisessä tekstissä ja käyttivät tätä sijaintia vastaavan köysiuotuksen laskemiseen, ja jokainen saman kuvan paikka jakaisi tämän upotuksen.

Lisäksi he tekevät myös Cross-AttentioniaHuomionaamio otetaan käyttöön, jotta kuvaa edeltävä teksti alkuperäisessä kontekstissa ei näe myöhempiä kuvia vastaavia piirteitä.

Yhteenvetona voidaan todeta, että nämä Hyper Attentionin suunnittelukohdat ovat lisänneet mPLUG-Owl3:n tehokkuutta ja varmistaneet, että sillä voi edelleen olla ensiluokkaisia ​​multimodaalisia ominaisuuksia.



Kokeelliset tulokset

Suorittamalla kokeita laajalla valikoimalla tietojoukkoja, mPLUG-Owl3Useimmat yhden kuvan multimodaaliset vertailuarvotKaikki voivat saavuttaa SOTA-tuloksia, ja monet testit voivat jopa ylittää mallit, joissa on suurempi malli.



samaan aikaan,Monikuva-arvioinnissa, mPLUG-Owl3 ohitti myös LLAVA-Next-Interleave ja Mantis, jotka on erityisesti optimoitu monikuvakohtauksiin.



Lisäksi erikoistuneessa arviointimallissa LongVideoBench (52,1 pistettä)Pitkien videoiden ymmärtäminenSe ylittää listalla olevat mallit.



T&K-tiimi ehdotti myös mielenkiintoistaPitkän visuaalisen sekvenssin arviointimenetelmä

Kuten kaikki tiedämme, todellisissa ihmisen ja tietokoneen vuorovaikutusskenaarioissa kaikki kuvat eivät ole käyttäjien ongelmia.

Arvioi mallin suorituskykyä pitkillä visuaalisen sekvenssin tuloillaHäiriöiden estokyky, he rakensivat sellaisen, joka perustuu MMBench-deviinUusi arviointitietojoukko

Ottamalla käyttöön epäolennaisia ​​kuvia jokaiselle MMBench-syklin arviointinäytteelle ja häiritsemällä kuvien järjestystä, kysytään sitten alkuperäisistä kuvista, voiko malli vastata oikein ja vakaasti. (Samalle kysymykselle muodostetaan neljä näytettä eri vaihtoehdoilla ja häiriökuvilla, ja vain yksi oikea vastaus tallennetaan, jos kaikkiin on vastattu oikein.)

Kokeilu on jaettu useille tasoille syötettyjen kuvien lukumäärän mukaan.

Voidaan nähdä, että mallit, joissa ei ollut monikuvaajakoulutusta, kuten Qwen-VL ja mPLUG-Owl2, epäonnistuivat nopeasti.



LLAVA-Next-Interleave ja Mantis, jotka on koulutettu useilla kuvilla, voivat säilyttää samanlaisen vaimennuskäyrän kuin mPLUG-Owl3 alussa, mutta kun kuvien määrä saavuttaa50Tällä suuruudella nämä mallit eivät voi enää vastata oikein.

Ja mPLUG-Owl3 jatkui400 kuvaaVoi silti ylläpitää40% tarkkuus

On kuitenkin sanottava, että vaikka mPLUG-Owl3 ylittää olemassa olevat mallit, sen tarkkuus on kaukana erinomaisesta. Voidaan vain sanoa, että tämä arviointimenetelmä paljastaa kaikkien mallien häiriönestokyvyn pitkien sekvenssien alla parannetaan edelleen tulevaisuudessa.

Katso lisätietoja paperista ja koodista.