Il framework di valutazione del modello multimodale lmms-eval è stato rilasciato! Copertura completa, costi contenuti, inquinamento zero

2024-08-21

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo.E-mail di presentazione: [email protected] [email protected];

insieme amodello di grandi dimensioniCon l’approfondimento della ricerca, come estenderla a più modalità è diventato un tema caldo nel mondo accademico e industriale. Modelli di grandi dimensioni closed source rilasciati di recente come GPT-4o、Claudio 3.5 e altri dispongono già di eccellenti capacità di comprensione delle immagini e anche modelli di dominio open source come LLaVA-NeXT, MiniCPM e InternVL mostrano prestazioni che si stanno avvicinando a quelle closed source.

In quest’era di “80.000 chilogrammi per mu” e di “una SoTA ogni 10 giorni”, quadri di valutazione multimodali facili da usare, dotati di standard trasparenti e riproducibili stanno diventando sempre più importanti, e questo non è facile.

Per risolvere i problemi di cui sopra, i ricercatori del LMMs-Lab della Nanyang Technological University hanno reso open source LMMs-Eval, un quadro di valutazione appositamente progettato per modelli multimodali su larga scala e fornisce un metodo per la valutazione di modelli multimodali (LMM). Una soluzione unica ed efficiente.

Repository del codice: https://github.com/EvolvingLMMs-Lab/lmms-eval
Homepage ufficiale: https://lmms-lab.github.io/
Indirizzo del documento: https://arxiv.org/abs/2407.12772
Indirizzo dell'elenco: https://huggingface.co/spaces/lmms-lab/LiveBench

Dal suo rilascio nel marzo 2024, il framework LMMs-Eval ha ricevuto contributi collaborativi da molte parti, tra cui la comunità open source, aziende e università. Ora ha ottenuto 1.1K stelle su Github, con più di 30+ contributori, incluso un totale di più di 80 set di dati e più di 10 modelli, ed è ancora in crescita.

Quadro di valutazione standardizzato

Al fine di fornire una piattaforma di valutazione standardizzata, LMMs-Eval include le seguenti funzionalità:

Interfaccia unificata: LMMs-Eval è migliorato ed esteso sulla base del quadro di valutazione testuale lm-evaluation-harness Definendo un'interfaccia unificata per modelli, set di dati e indicatori di valutazione, è conveniente per gli utenti aggiungere nuovi modelli e dati multimodali. impostato.
Lancio con un clic: LMMs-Eval ospita oltre 80 set di dati (in aumento) su HuggingFace, trasformati con cura dalle fonti originali, comprese tutte le varianti, versioni e suddivisioni. Gli utenti non devono effettuare alcuna preparazione. Con un solo comando, più set di dati e modelli verranno automaticamente scaricati e testati e i risultati saranno disponibili in pochi minuti.
Trasparente e riproducibile: LMMs-Eval ha uno strumento di registrazione unificato integrato. Ogni domanda a cui risponde il modello e se è corretta o meno verrà registrata, garantendo riproducibilità e trasparenza. Facilita inoltre il confronto tra vantaggi e svantaggi di diversi modelli.

La visione di LMMs-Eval è che i futuri modelli multimodali non avranno più bisogno di scrivere il proprio codice di elaborazione, inferenza e invio dei dati. Nell'ambiente odierno in cui i set di test multimodali sono altamente concentrati, questo approccio non è realistico e i punteggi misurati sono difficili da confrontare direttamente con altri modelli. Accedendo a LMMs-Eval, i formatori del modello possono concentrarsi maggiormente sul miglioramento e sull'ottimizzazione del modello stesso, piuttosto che dedicare tempo alla valutazione e ai risultati dell'allineamento.

Il "triangolo impossibile" della valutazione

L'obiettivo finale di LMMs-Eval è trovare un metodo per valutare gli LMM con 1. ampia copertura, 2. basso costo e 3. zero perdite di dati. Tuttavia, anche con LMMs-Eval, il team di autori ha riscontrato che è difficile o addirittura impossibile raggiungere questi tre punti contemporaneamente.

Come mostrato nella figura seguente, quando hanno ampliato il set di dati di valutazione a più di 50, è diventato molto dispendioso in termini di tempo eseguire una valutazione completa di questi set di dati. Inoltre, questi parametri di riferimento sono anche suscettibili alla contaminazione durante l'allenamento. A tal fine, LMMs-Eval ha proposto LMMs-Eval-Lite per tenere conto di un'ampia copertura e di un basso costo. Hanno inoltre progettato LiveBench in modo che fosse a basso costo e non presentasse perdite di dati.

LMMs-Eval-Lite: valutazione leggera con ampia copertura

Quando si valutano modelli di grandi dimensioni, l'elevato numero di parametri e attività di test spesso aumenta notevolmente i tempi e i costi dell'attività di valutazione. Pertanto, le persone spesso scelgono di utilizzare set di dati più piccoli o di utilizzare set di dati specifici per la valutazione. Tuttavia, una valutazione limitata spesso porta a una mancanza di comprensione delle capacità del modello. Per tenere conto sia della diversità della valutazione che del costo della valutazione, LMMs-Eval ha lanciato LMMs-Eval-Lite.

LMMs-Eval-Lite mira a creare un set di benchmark semplificato per fornire segnali utili e veloci durante lo sviluppo del modello, evitando così il problema dell'ingrossamento dei test odierni. Se riusciamo a trovare un sottoinsieme del set di test esistente in cui i punteggi assoluti e le classifiche relative tra i modelli rimangono simili al set completo, allora possiamo considerare sicuro eliminare questi set di dati.

Per trovare i punti salienti dei dati nel set di dati, LMMs-Eval utilizza innanzitutto i modelli CLIP e BGE per convertire il set di dati di valutazione multimodale sotto forma di incorporamento di vettori e utilizza il metodo di clustering k-greedy per trovare i dati salienti punti. Durante i test, questi set di dati più piccoli hanno comunque dimostrato capacità di valutazione simili al set completo.

Successivamente, LMMs-Eval ha utilizzato lo stesso metodo per produrre una versione Lite che copre più set di dati. Questi set di dati sono progettati per aiutare le persone a risparmiare sui costi di valutazione durante lo sviluppo per giudicare rapidamente le prestazioni del modello.

LiveBench: test dinamico degli LMM

I benchmark tradizionali si concentrano sulla valutazione statica utilizzando domande e risposte fisse. Con il progresso della ricerca multimodale, i modelli open source sono spesso migliori dei modelli commerciali, come GPT-4V, nel confronto dei punteggi, ma restano indietro nell’effettiva esperienza dell’utente. I Chatbot dinamici e orientati all'utente Arenas e WildVision sono sempre più popolari nella valutazione dei modelli, ma richiedono la raccolta di migliaia di preferenze dell'utente, rendendo i costi di valutazione estremamente elevati.

L'idea centrale di LiveBench è quella di valutare le prestazioni del modello su un set di dati continuamente aggiornato per ottenere una contaminazione zero e mantenere bassi i costi. Il team degli autori ha raccolto dati di valutazione dal Web e ha creato una pipeline per raccogliere automaticamente le informazioni globali più recenti da siti Web come notizie e forum di comunità. Per garantire la tempestività e l'autenticità delle informazioni, il team di autori ha selezionato fonti da più di 60 mezzi di informazione tra cui CNN, BBC, Asahi Shimbun giapponese e Xinhua News Agency cinese, nonché forum come Reddit. I passaggi specifici sono i seguenti:

Cattura uno screenshot della tua home page e rimuovi annunci ed elementi non di notizie.
Progetta set di domande e risposte utilizzando i modelli multimodali più potenti attualmente disponibili, come GPT4-V, Claude-3-Opus e Gemini-1.5-Pro. Revisionato e revisionato da un altro modello
domande per garantire accuratezza e pertinenza.
Il set finale di domande e risposte viene rivisto manualmente e ogni mese vengono raccolte circa 500 domande, di cui 100-300 vengono conservate come set di domande livebench finale.
Vengono utilizzati gli standard di punteggio di LLaVA-Wilder e Vibe-Eval: i punteggi del modello di punteggio si basano sulle risposte standard fornite e l'intervallo di punteggio è [1, 10]. Il modello di punteggio predefinito è GPT-4o, con Claude-3-Opus e Gemini 1.5 Pro inclusi come alternative. I risultati finali del reporting si baseranno sui punteggi convertiti in una metrica di precisione compresa tra 0 e 100.

In futuro potrete anche controllare gli ultimi dati di valutazione dei modelli multimodali aggiornati dinamicamente ogni mese nel nostro elenco aggiornato dinamicamente, nonché i risultati dell'ultima valutazione nell'elenco.

notizia

Il framework di valutazione del modello multimodale lmms-eval è stato rilasciato! Copertura completa, costi contenuti, inquinamento zero

Introduzione

Le mie informazioni di contatto