uutiset

Multimodaalisen mallin arviointikehys lmms-eval on julkaistu! Kattava kattavuus, alhaiset kustannukset, nolla saastetta

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi.Lähetyssähköposti: [email protected]; [email protected]

kanssaiso malliTutkimuksen syventymisen myötä sen laajentamisesta useammille modaliteeteille on tullut kuuma aihe korkeakouluissa ja teollisuudessa. Äskettäin julkaistut suljetun lähdekoodin suuret mallit, kuten GPT-4oClaude 3.5:llä ja muilla on jo superkuvan ymmärtämisominaisuudet, ja avoimen lähdekoodin verkkotunnusmallit, kuten LLaVA-NeXT, MiniCPM ja InternVL, osoittavat myös suorituskykyä, joka on lähempänä suljettua lähdekoodia.


Tällä "80 000 kiloa per mu" ja "yksi SoTA joka 10 päivä" aikakaudella helppokäyttöiset, läpinäkyvät standardit ja toistettavat multimodaaliset arviointikehykset ovat yhä tärkeämpiä, eikä tämä ole helppoa.


Yllä olevien ongelmien ratkaisemiseksi Nanyangin teknillisen yliopiston LMMs-Lab:n tutkijat yhdessä avoimen lähdekoodin LMMs-Evalin, joka on erityisesti multimodaalisille laajamittaisille malleille suunniteltu arviointikehys ja tarjoaa menetelmän multimodaalisten mallien arviointiin. (LMM:t) Yhden luukun, tehokas ratkaisu.


  • Koodivarasto: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • Virallinen kotisivu: https://lmms-lab.github.io/

  • Paperiosoite: https://arxiv.org/abs/2407.12772

  • Luettelon osoite: https://huggingface.co/spaces/lmms-lab/LiveBench


Maaliskuussa 2024 julkaistusta LMMs-Eval-kehyksestä lähtien se on saanut yhteistyötä monilta osapuolilta, mukaan lukien avoimen lähdekoodin yhteisö, yritykset ja yliopistot. Se on nyt saanut 1,1 000 tähteä Githubissa yli 30 avustajan kanssa, mukaan lukien yhteensä yli 80 tietojoukkoa ja yli 10 mallia, ja se kasvaa edelleen.

 

Standardoitu arviointikehys


Standardoidun arviointialustan tarjoamiseksi LMMs-Eval sisältää seuraavat ominaisuudet:


  1. Yhtenäinen käyttöliittymä: LMMs-Eval on parannettu ja laajennettu perustuen tekstiarviointikehykseen lm-evaluation-harness Määrittämällä yhtenäisen käyttöliittymän malleille, tietojoukoille ja arviointiindikaattoreille, käyttäjien on kätevä lisätä uusia multimodaalisia malleja ja tietoja. sarja.

  2. Käynnistys yhdellä napsautuksella: LMMs-Eval isännöi HuggingFacessa yli 80 (ja kasvavaa) tietojoukkoa, jotka on muunnettu huolellisesti alkuperäisistä lähteistä, mukaan lukien kaikki versiot, versiot ja jaot. Käyttäjien ei tarvitse tehdä mitään valmisteluja Yhdellä komennolla useita tietojoukkoja ja malleja ladataan ja testataan automaattisesti, ja tulokset ovat saatavilla muutamassa minuutissa.

  3. Läpinäkyvä ja toistettava: LMMs-Evalissa on sisäänrakennettu yhtenäinen kirjaustyökalu. Jokainen mallin vastaus ja onko se oikea vai ei, tallennetaan, mikä varmistaa toistettavuuden ja läpinäkyvyyden. Se helpottaa myös eri mallien etujen ja haittojen vertailua.


LMMs-Evalin visio on, että tulevien multimodaalisten mallien ei enää tarvitse kirjoittaa omaa tietojenkäsittely-, päättely- ja toimituskoodiaan. Nykyympäristössä, jossa multimodaaliset testisarjat ovat erittäin keskittyneitä, tämä lähestymistapa on epärealistinen ja mitattuja pisteitä on vaikea verrata suoraan muihin malleihin. Käyttämällä LMMs-Evalia mallikouluttajat voivat keskittyä enemmän itse mallin parantamiseen ja optimointiin sen sijaan, että käyttäisivät aikaa arvioinnin ja kohdistuksen tulosten tekemiseen.


Arvioinnin "mahdoton kolmio".


LMMs-Evalin perimmäisenä tavoitteena on löytää menetelmä LMM:ien arvioimiseksi 1. laajalla kattavuudella, 2. alhaisella hinnalla ja 3. nolla datavuotoa. Kuitenkin jopa LMMs-Evalin kanssa kirjoittajaryhmä havaitsi, että näiden kolmen pisteen saavuttaminen samanaikaisesti on vaikeaa tai jopa mahdotonta.


Kuten alla olevasta kuvasta näkyy, kun he laajensivat arviointitietojoukon yli 50:een, näiden aineistojen kattavan arvioinnin suorittamisesta tuli erittäin aikaavievää. Lisäksi nämä vertailuarvot ovat myös alttiita kontaminaatiolle harjoituksen aikana. Tätä varten LMMs-Eval ehdotti LMMs-Eval-Litea laajan kattavuuden ja alhaisen kustannusten huomioon ottamiseksi. He suunnittelivat myös LiveBenchin edulliseksi ja datavuotottomiksi.

 

LMMs-Eval-Lite: Kevyt arviointi laajalla peittoalueella

 

Suuria malleja arvioitaessa parametrien ja testaustehtävien suuri määrä lisää usein jyrkästi arviointitehtävän aikaa ja kustannuksia. Tästä syystä ihmiset valitsevat usein pienempien tietokokonaisuuksien tai tiettyjen tietojoukkojen käytön. Rajallinen arviointi johtaa kuitenkin usein mallien ominaisuuksien ymmärtämättömyyteen. Ottaakseen huomioon sekä arvioinnin monimuotoisuuden että arvioinnin kustannukset LMMs-Eval lanseerasi LMMs-Eval-Liten.

 

LMMs-Eval-Lite pyrkii rakentamaan yksinkertaistetun benchmark-sarjan, joka tarjoaa hyödyllisiä ja nopeita signaaleja mallinkehityksen aikana, mikä välttää nykypäivän testien turvotusongelman. Jos löydämme olemassa olevan testijoukon osajoukon, jossa absoluuttiset pisteet ja suhteelliset sijoitukset mallien välillä pysyvät samanlaisina kuin koko joukko, voimme pitää turvallisena karsia näitä tietojoukkoja.


LMMs-Eval käyttää ensin CLIP- ja BGE-malleja löytääkseen datajoukon tärkeimmät pisteet datajoukosta muuntaessaan multimodaalisen arviointitietojoukon vektori upotuksen muotoon ja käyttää k-greedy-klusterointimenetelmää löytääkseen tärkeimmät tiedot. pisteitä. Testauksessa nämä pienemmät tietojoukot osoittivat edelleen samanlaisia ​​arviointikykyjä kuin koko joukko.

 

Myöhemmin LMMs-Eval käytti samaa menetelmää tuottaakseen Lite-version, joka kattaa enemmän tietojoukkoja. Nämä tietojoukot on suunniteltu auttamaan ihmisiä säästämään arviointikuluja kehityksen aikana, jotta mallin suorituskykyä voidaan arvioida nopeasti.

 

LiveBench: LMM:ien dynaaminen testaus

Perinteiset vertailuarvot keskittyvät staattiseen arviointiin käyttämällä kiinteitä kysymyksiä ja vastauksia. Multimodaalisen tutkimuksen edetessä avoimen lähdekoodin mallit ovat usein parempia kuin kaupalliset mallit, kuten GPT-4V, vertailussa, mutta jäävät jälkeen todellisen käyttökokemuksen osalta. Dynaamiset, käyttäjälähtöiset Chatbots Arenas ja WildVision ovat yhä suositumpia mallien arvioinnissa, mutta ne edellyttävät tuhansien käyttäjien mieltymysten keräämistä, mikä tekee arviointikustannuksista erittäin korkeita.


LiveBenchin ydinideana on arvioida mallin suorituskykyä jatkuvasti päivitetyllä tietojoukolla, jotta saavutetaan nollakontaminaatio ja pidetään kustannukset alhaisina. Kirjoittajatiimi keräsi arviointitietoja verkosta ja rakensi putkiston, joka kerää automaattisesti uusimmat maailmanlaajuiset tiedot verkkosivustoilta, kuten uutisista ja yhteisön foorumeilta. Tietojen ajantasaisuuden ja aitouden varmistamiseksi kirjoittajaryhmä valitsi lähteitä yli 60 uutismediasta, mukaan lukien CNN, BBC, japanilainen Asahi Shimbun ja Kiinan Xinhua News Agency, sekä foorumeilta, kuten Reddit. Tarkat vaiheet ovat seuraavat:


  1. Ota kuvakaappaus etusivustasi ja poista mainokset ja muut kuin uutiselementit.

  2. Suunnittele kysymys- ja vastaussarjat käyttämällä tehokkaimpia tällä hetkellä saatavilla olevia multimodaalimalleja, kuten GPT4-V, Claude-3-Opus ja Gemini-1.5-Pro. Tarkastettu ja tarkistettu toisella mallilla

  3. kysymyksiä tarkkuuden ja asianmukaisuuden varmistamiseksi.

  4. Lopullinen kysymys-vastausjoukko tarkistetaan manuaalisesti, ja noin 500 kysymystä kerätään joka kuukausi, ja 100-300 säilytetään lopullisena livepenkin kysymyssarjana.

  5. Käytössä ovat LLaVA-Wilderin ja Vibe-Evalin pisteytysstandardit - pisteytysmallin pisteet, jotka perustuvat annettuihin standardivastauksiin, ja pistemäärä on [1, 10]. Oletuspisteytysmalli on GPT-4o, ja vaihtoehtoina ovat myös Claude-3-Opus ja Gemini 1.5 Pro. Lopulliset raportointitulokset perustuvat pisteisiin, jotka on muunnettu tarkkuusmittariksi, joka vaihtelee välillä 0–100.

 

Jatkossa voit myös tarkistaa kuukausittain dynaamisesti päivittyvien multimodaalisten mallien viimeisimmät arviointitiedot dynaamisesti päivitetystä luettelostamme sekä listan viimeisimmän arvioinnin tulokset.