Nachricht

Das multimodale Modellbewertungsframework lmms-eval ist veröffentlicht! Umfassende Abdeckung, niedrige Kosten, keine Umweltverschmutzung

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren.E-Mail-Adresse: [email protected]; [email protected]

zusammen mitgroßes ModellMit der Vertiefung der Forschung ist die Frage, wie man sie auf weitere Modalitäten ausweiten kann, in Wissenschaft und Industrie zu einem heißen Thema geworden. Kürzlich veröffentlichte große Closed-Source-Modelle wie z GPT-4oClaude 3.5 und andere verfügen bereits über hervorragende Bildverständnisfunktionen, und Open-Source-Domänenmodelle wie LLaVA-NeXT, MiniCPM und InternVL weisen ebenfalls eine Leistung auf, die sich der von Closed Source annähert.


In Zeiten von „80.000 Kilogramm pro Mu“ und „einem SoTA alle 10 Tage“ werden multimodale Bewertungsrahmen, die einfach zu verwenden sind, transparente Standards haben und reproduzierbar sind, immer wichtiger, und das ist nicht einfach.


Um die oben genannten Probleme zu lösen, haben Forscher des LMMs-Lab der Nanyang Technological University gemeinsam LMMs-Eval als Open-Source-Lösung entwickelt. Hierbei handelt es sich um ein Bewertungsframework, das speziell für multimodale Großmodelle entwickelt wurde und eine Methode zur Bewertung multimodaler Modelle bereitstellt (LMMs). Eine effiziente Lösung aus einer Hand.


  • Code-Repository: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • Offizielle Homepage: https://lmms-lab.github.io/

  • Papieradresse: https://arxiv.org/abs/2407.12772

  • Listenadresse: https://huggingface.co/spaces/lmms-lab/LiveBench


Seit seiner Veröffentlichung im März 2024 hat das LMMs-Eval-Framework gemeinsame Beiträge von vielen Parteien erhalten, darunter der Open-Source-Community, Unternehmen und Universitäten. Mittlerweile hat es 1,1.000 Sterne auf Github erhalten, mit mehr als 30 Mitwirkenden, darunter insgesamt mehr als 80 Datensätzen und mehr als 10 Modellen, und es wächst weiter.

 

Standardisierter Bewertungsrahmen


Um eine standardisierte Bewertungsplattform bereitzustellen, umfasst LMMs-Eval die folgenden Funktionen:


  1. Einheitliche Schnittstelle: LMMs-Eval wird basierend auf dem Textbewertungs-Framework lm-evaluation-harness verbessert und erweitert. Durch die Definition einer einheitlichen Schnittstelle für Modelle, Datensätze und Bewertungsindikatoren ist es für Benutzer bequem, neue multimodale Modelle und Daten hinzuzufügen Satz.

  2. Ein-Klick-Start: LMMs-Eval hostet über 80 (und wachsende) Datensätze auf HuggingFace, die sorgfältig aus den Originalquellen transformiert wurden, einschließlich aller Varianten, Versionen und Splits. Benutzer müssen keine Vorbereitungen treffen. Mit nur einem Befehl werden mehrere Datensätze und Modelle automatisch heruntergeladen und getestet, und die Ergebnisse stehen in wenigen Minuten zur Verfügung.

  3. Transparent und reproduzierbar: LMMs-Eval verfügt über ein integriertes einheitliches Protokollierungstool. Jede vom Modell beantwortete Frage und ob sie richtig ist oder nicht, wird aufgezeichnet, um Reproduzierbarkeit und Transparenz zu gewährleisten. Es erleichtert auch den Vergleich der Vor- und Nachteile verschiedener Modelle.


Die Vision von LMMs-Eval ist, dass zukünftige multimodale Modelle keinen eigenen Datenverarbeitungs-, Inferenz- und Übermittlungscode mehr schreiben müssen. In der heutigen Umgebung, in der multimodale Testsätze stark konzentriert sind, ist dieser Ansatz unrealistisch und die gemessenen Ergebnisse lassen sich nur schwer direkt mit anderen Modellen vergleichen. Durch den Zugriff auf LMMs-Eval können sich Modelltrainer mehr auf die Verbesserung und Optimierung des Modells selbst konzentrieren, anstatt Zeit mit der Bewertung und Ausrichtung von Ergebnissen zu verbringen.


Das „unmögliche Dreieck“ der Bewertung


Das ultimative Ziel von LMMs-Eval besteht darin, eine Methode zur Bewertung von LMMs mit 1. großer Abdeckung, 2. geringen Kosten und 3. keinem Datenverlust zu finden. Allerdings stellte das Autorenteam fest, dass es selbst mit LMMs-Eval schwierig oder sogar unmöglich ist, diese drei Punkte gleichzeitig zu erreichen.


Wie in der folgenden Abbildung dargestellt, wurde es sehr zeitaufwändig, eine umfassende Auswertung dieser Datensätze durchzuführen, als der Bewertungsdatensatz auf über 50 erweitert wurde. Darüber hinaus sind diese Benchmarks auch während des Trainings anfällig für Kontaminationen. Zu diesem Zweck schlug LMMs-Eval LMMs-Eval-Lite vor, um eine breite Abdeckung und niedrige Kosten zu berücksichtigen. Sie haben LiveBench außerdem so konzipiert, dass es kostengünstig ist und keine Datenverluste verursacht.

 

LMMs-Eval-Lite: Leichte Evaluierung mit breiter Abdeckung

 

Bei der Evaluierung großer Modelle erhöht die große Anzahl an Parametern und Testaufgaben häufig den Zeit- und Kostenaufwand für die Evaluierungsaufgabe erheblich. Daher entscheiden sich Menschen häufig für die Verwendung kleinerer Datensätze oder für die Verwendung spezifischer Datensätze zur Evaluierung. Eine eingeschränkte Evaluierung führt jedoch oft zu einem Mangel an Verständnis der Modellfähigkeiten. Um sowohl der Vielfalt der Evaluierung als auch den Kosten der Evaluierung Rechnung zu tragen, hat LMMs-Eval LMMs-Eval-Lite eingeführt

 

LMMs-Eval-Lite zielt darauf ab, einen vereinfachten Benchmark-Satz zu erstellen, um während der Modellentwicklung nützliche und schnelle Signale bereitzustellen und so das Aufblähungsproblem heutiger Tests zu vermeiden. Wenn wir eine Teilmenge des vorhandenen Testsatzes finden können, bei der die absoluten Ergebnisse und relativen Rankings zwischen den Modellen dem vollständigen Satz ähnlich bleiben, können wir es als sicher erachten, diese Datensätze zu bereinigen.


Um die hervorstechenden Datenpunkte im Datensatz zu finden, verwendet LMMs-Eval zunächst CLIP- und BGE-Modelle, um den multimodalen Bewertungsdatensatz in die Form der Vektoreinbettung umzuwandeln, und verwendet die k-Greedy-Clustering-Methode, um die hervorstechenden Daten zu finden Punkte. In Tests zeigten diese kleineren Datensätze immer noch ähnliche Auswertungsfähigkeiten wie der gesamte Satz.

 

Anschließend verwendete LMMs-Eval dieselbe Methode, um eine Lite-Version zu erstellen, die mehr Datensätze abdeckt. Diese Datensätze sollen dabei helfen, Evaluierungskosten während der Entwicklung zu sparen und die Modellleistung schnell beurteilen zu können.

 

LiveBench: Dynamisches Testen von LMMs

Traditionelle Benchmarks konzentrieren sich auf die statische Bewertung anhand fester Fragen und Antworten. Mit dem Fortschritt der multimodalen Forschung sind Open-Source-Modelle im Punktevergleich oft besser als kommerzielle Modelle wie GPT-4V, fallen aber bei der tatsächlichen Benutzererfahrung zurück. Dynamische, benutzerorientierte Chatbots Arenas und WildVision erfreuen sich bei der Modellevaluierung immer größerer Beliebtheit, erfordern jedoch die Erfassung Tausender Benutzerpräferenzen, was die Evaluierungskosten extrem hoch macht.


Die Kernidee von LiveBench besteht darin, die Leistung des Modells anhand eines kontinuierlich aktualisierten Datensatzes zu bewerten, um eine Kontaminationsfreiheit zu erreichen und die Kosten niedrig zu halten. Das Autorenteam sammelte Bewertungsdaten aus dem Internet und baute eine Pipeline auf, um automatisch die neuesten globalen Informationen von Websites wie Nachrichten und Community-Foren zu sammeln. Um die Aktualität und Authentizität der Informationen sicherzustellen, wählte das Autorenteam Quellen aus mehr als 60 Nachrichtenmedien aus, darunter CNN, BBC, Japans Asahi Shimbun und Chinas Nachrichtenagentur Xinhua sowie Foren wie Reddit. Die spezifischen Schritte sind wie folgt:


  1. Machen Sie einen Screenshot Ihrer Homepage und entfernen Sie Anzeigen und Nicht-Nachrichtenelemente.

  2. Entwerfen Sie Frage- und Antwortsätze mit den leistungsstärksten derzeit verfügbaren multimodalen Modellen wie GPT4-V, Claude-3-Opus und Gemini-1.5-Pro. Von einem anderen Modell überprüft und überarbeitet

  3. Fragen, um Genauigkeit und Relevanz sicherzustellen.

  4. Der endgültige Fragen- und Antwortsatz wird manuell überprüft. Jeden Monat werden etwa 500 Fragen gesammelt. 100–300 werden als endgültiger Livebench-Fragensatz aufbewahrt.

  5. Es werden die Bewertungsstandards von LLaVA-Wilder und Vibe-Eval verwendet – die Bewertungen des Bewertungsmodells basieren auf den bereitgestellten Standardantworten und der Bewertungsbereich beträgt [1, 10]. Das Standardbewertungsmodell ist GPT-4o, wobei Claude-3-Opus und Gemini 1.5 Pro als Alternativen ebenfalls enthalten sind. Die endgültigen Berichtsergebnisse basieren auf Bewertungen, die in eine Genauigkeitsmetrik im Bereich von 0 bis 100 umgewandelt werden.

 

Zukünftig können Sie in unserer dynamisch aktualisierten Liste auch die neuesten Evaluierungsdaten multimodaler Modelle einsehen, die jeden Monat dynamisch aktualisiert werden, sowie die Ergebnisse der letzten Evaluierung in der Liste.