Le cadre d'évaluation de modèles multimodaux lmms-eval est disponible ! Couverture complète, faible coût, zéro pollution

2024-08-21

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport.Courriel de soumission : [email protected] ; [email protected] ;

avecgrand modèleAvec l’approfondissement de la recherche, la manière de l’étendre à davantage de modalités est devenue un sujet brûlant dans le monde universitaire et industriel. Grands modèles fermés récemment publiés tels que GPT-4o、Claude 3.5 et d'autres disposent déjà de superbes capacités de compréhension d'images, et les modèles de domaine open source tels que LLaVA-NeXT, MiniCPM et InternVL ont également montré des performances qui se rapprochent du code source fermé.

À l'ère des « 80 000 kilogrammes par mu » et d'« un SoTA tous les 10 jours », les cadres d'évaluation multimodaux faciles à utiliser, dotés de normes transparentes et reproductibles deviennent de plus en plus importants, et ce n'est pas facile.

Afin de résoudre les problèmes ci-dessus, des chercheurs du LMMs-Lab de l'Université technologique de Nanyang ont conjointement ouvert LMMs-Eval, qui est un cadre d'évaluation spécialement conçu pour les modèles multimodaux à grande échelle et fournit une méthode d'évaluation des modèles multimodaux. (LMM). Une solution unique et efficace.

Dépôt de code : https://github.com/EvolvingLMMs-Lab/lmms-eval
Page d'accueil officielle : https://lmms-lab.github.io/
Adresse papier : https://arxiv.org/abs/2407.12772
Adresse de la liste : https://huggingface.co/spaces/lmms-lab/LiveBench

Depuis sa sortie en mars 2024, le framework LMMs-Eval a reçu des contributions collaboratives de nombreuses parties, notamment la communauté open source, les entreprises et les universités. Il a désormais obtenu 1,1K étoiles sur Github, avec plus de 30+ contributeurs, dont un total de plus de 80 ensembles de données et plus de 10 modèles, et il continue de croître.

Cadre d'évaluation standardisé

Afin de fournir une plateforme d'évaluation standardisée, LMMs-Eval comprend les fonctionnalités suivantes :

Interface unifiée : LMMs-Eval est amélioré et étendu sur la base du cadre d'évaluation de texte lm-evaluation-harness En définissant une interface unifiée pour les modèles, les ensembles de données et les indicateurs d'évaluation, il est pratique pour les utilisateurs d'ajouter de nouveaux modèles et données multimodaux. ensemble.
Lancement en un clic : LMMs-Eval héberge plus de 80 ensembles de données (et de plus en plus) sur HuggingFace, soigneusement transformés à partir des sources d'origine, y compris toutes les variantes, versions et divisions. Les utilisateurs n'ont pas besoin de faire de préparation. Avec une seule commande, plusieurs ensembles de données et modèles seront automatiquement téléchargés et testés, et les résultats seront disponibles en quelques minutes.
Transparent et reproductible : LMMs-Eval dispose d'un outil de journalisation unifié intégré. Chaque question répondue par le modèle et si elle est correcte ou non sera enregistrée, garantissant la reproductibilité et la transparence. Cela facilite également la comparaison des avantages et des inconvénients des différents modèles.

La vision de LMMs-Eval est que les futurs modèles multimodaux ne nécessitent plus d'écrire leur propre code de traitement des données, d'inférence et de soumission. Dans l'environnement actuel où les ensembles de tests multimodaux sont très concentrés, cette approche est irréaliste et les scores mesurés sont difficiles à comparer directement avec d'autres modèles. En accédant à LMMs-Eval, les formateurs de modèles peuvent se concentrer davantage sur l'amélioration et l'optimisation du modèle lui-même, plutôt que de consacrer du temps aux résultats d'évaluation et d'alignement.

Le « triangle impossible » de l’évaluation

Le but ultime de LMMs-Eval est de trouver une méthode pour évaluer les LMM avec 1. une large couverture, 2. un faible coût et 3. aucune fuite de données. Cependant, même avec LMMs-Eval, l’équipe des auteurs a constaté qu’il est difficile, voire impossible, d’atteindre ces trois points en même temps.

Comme le montre la figure ci-dessous, lorsqu'ils ont étendu l'ensemble de données d'évaluation à plus de 50, il est devenu très long d'effectuer une évaluation complète de ces ensembles de données. De plus, ces benchmarks sont également susceptibles d’être contaminés lors de la formation. À cette fin, LMMs-Eval a proposé LMMs-Eval-Lite pour prendre en compte une large couverture et un faible coût. Ils ont également conçu LiveBench pour qu’il soit peu coûteux et qu’il n’y ait aucune fuite de données.

LMMs-Eval-Lite : évaluation légère avec une large couverture

Lors de l'évaluation de grands modèles, le grand nombre de paramètres et de tâches de test augmentent souvent le temps et le coût de la tâche d'évaluation. Par conséquent, les utilisateurs choisissent souvent d'utiliser des ensembles de données plus petits ou des ensembles de données spécifiques pour l'évaluation. Cependant, une évaluation limitée conduit souvent à un manque de compréhension des capacités du modèle. Afin de prendre en compte à la fois la diversité des évaluations et leur coût, LMMs-Eval a lancé LMMs-Eval-Lite.

LMMs-Eval-Lite vise à créer un ensemble de références simplifié pour fournir des signaux utiles et rapides lors du développement du modèle, évitant ainsi le problème de surcharge des tests actuels. Si nous pouvons trouver un sous-ensemble de l'ensemble de tests existant sur lequel les scores absolus et les classements relatifs entre les modèles restent similaires à l'ensemble complet, nous pouvons alors considérer qu'il est prudent d'élaguer ces ensembles de données.

Afin de trouver les points saillants des données dans l'ensemble de données, LMMs-Eval utilise d'abord les modèles CLIP et BGE pour convertir l'ensemble de données d'évaluation multimodale sous forme d'intégration vectorielle et utilise la méthode de clustering k-gourmand pour trouver les points saillants des données. points. Lors des tests, ces ensembles de données plus petits ont toujours démontré des capacités d'évaluation similaires à celles de l'ensemble complet.

Par la suite, LMMs-Eval a utilisé la même méthode pour produire une version Lite couvrant davantage d'ensembles de données. Ces ensembles de données sont conçus pour aider les utilisateurs à réduire les coûts d'évaluation pendant le développement afin de juger rapidement les performances du modèle.

LiveBench : tests dynamiques des LMM

Les benchmarks traditionnels se concentrent sur une évaluation statique utilisant des questions et réponses fixes. Avec les progrès de la recherche multimodale, les modèles open source sont souvent meilleurs que les modèles commerciaux, tels que GPT-4V, en termes de comparaison des scores, mais ils sont à la traîne en termes d'expérience utilisateur réelle. Les Chatbots Arenas et WildVision dynamiques et orientés utilisateur sont de plus en plus populaires pour l'évaluation de modèles, mais ils nécessitent de collecter des milliers de préférences d'utilisateurs, ce qui rend l'évaluation extrêmement coûteuse.

L'idée principale de LiveBench est d'évaluer les performances du modèle sur un ensemble de données continuellement mis à jour pour atteindre zéro contamination et maintenir les coûts à un niveau bas. L'équipe d'auteurs a collecté des données d'évaluation sur le Web et a construit un pipeline pour collecter automatiquement les dernières informations mondiales à partir de sites Web tels que des forums d'actualités et communautaires. Afin de garantir l'actualité et l'authenticité des informations, l'équipe d'auteurs a sélectionné des sources provenant de plus de 60 médias d'information, dont CNN, la BBC, l'Asahi Shimbun du Japon et l'agence de presse chinoise Xinhua, ainsi que des forums tels que Reddit. Les étapes spécifiques sont les suivantes :

Capturez une capture d'écran de votre page d'accueil et supprimez les publicités et les éléments non liés aux actualités.
Concevez des ensembles de questions et réponses en utilisant les modèles multimodaux les plus puissants actuellement disponibles, tels que GPT4-V, Claude-3-Opus et Gemini-1.5-Pro. Revu et révisé par un autre modèle
questions pour garantir l’exactitude et la pertinence.
L'ensemble final de questions et de réponses est examiné manuellement, et environ 500 questions sont collectées chaque mois, et 100 à 300 sont conservées comme ensemble final de questions livebench.
Les normes de notation de LLaVA-Wilder et Vibe-Eval sont utilisées : le modèle de notation obtient des scores basés sur les réponses standard fournies, et la plage de scores est [1, 10]. Le modèle de notation par défaut est GPT-4o, Claude-3-Opus et Gemini 1.5 Pro étant également inclus comme alternatives. Les résultats finaux rapportés seront basés sur le score converti en une mesure de précision allant de 0 à 100.

À l'avenir, vous pourrez également consulter les dernières données d'évaluation des modèles multimodaux mises à jour dynamiquement chaque mois dans notre liste mise à jour dynamiquement, ainsi que les résultats des dernières évaluations de la liste.

nouvelles

Le cadre d'évaluation de modèles multimodaux lmms-eval est disponible ! Couverture complète, faible coût, zéro pollution

Introduction

Mes coordonnées