noticias

¡Se lanza el marco de evaluación de modelos multimodal lmms-eval! Cobertura integral, bajo coste, cero contaminación

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos.Correo electrónico de envío: [email protected]; [email protected];

junto conmodelo grandeCon la profundización de la investigación, cómo extenderla a más modalidades se ha convertido en un tema candente en la academia y la industria. Modelos grandes de código cerrado lanzados recientemente, como GPT-4oClaudio 3.5 y otros ya tienen capacidades de súper comprensión de imágenes, y los modelos de dominio de código abierto como LLaVA-NeXT, MiniCPM e InternVL también han mostrado un rendimiento que se acerca cada vez más al código cerrado.


En esta era de "80.000 kilogramos por mu" y "un SoTA cada 10 días", los marcos de evaluación multimodales que sean fáciles de usar, tengan estándares transparentes y reproducibles son cada vez más importantes, y esto no es fácil.


Para resolver los problemas anteriores, investigadores del LMMs-Lab de la Universidad Tecnológica de Nanyang abrieron conjuntamente LMMs-Eval, que es un marco de evaluación especialmente diseñado para modelos multimodales a gran escala y proporciona un método para la evaluación de modelos multimodales. (LMM). Una solución integral y eficiente.


  • Repositorio de código: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • Página de inicio oficial: https://lmms-lab.github.io/

  • Dirección del artículo: https://arxiv.org/abs/2407.12772

  • Dirección de la lista: https://huggingface.co/spaces/lmms-lab/LiveBench


Desde su lanzamiento en marzo de 2024, el marco LMMs-Eval ha recibido contribuciones colaborativas de muchas partes, incluida la comunidad de código abierto, empresas y universidades. Ahora ha obtenido 1,1 mil estrellas en Github, con más de 30 contribuyentes, incluido un total de más de 80 conjuntos de datos y más de 10 modelos, y sigue creciendo.

 

Marco de evaluación estandarizado


Para proporcionar una plataforma de evaluación estandarizada, LMMs-Eval incluye las siguientes características:


  1. Interfaz unificada: LMMs-Eval se mejora y amplía en función del marco de evaluación de texto lm-evaluación-harness Al definir una interfaz unificada para modelos, conjuntos de datos e indicadores de evaluación, es conveniente para los usuarios agregar nuevos modelos y datos multimodales. colocar.

  2. Lanzamiento con un solo clic: LMMs-Eval alberga más de 80 (y en aumento) conjuntos de datos en HuggingFace, cuidadosamente transformados a partir de las fuentes originales, incluidas todas las variantes, versiones y divisiones. Los usuarios no necesitan hacer ningún preparativo. Con un solo comando, se descargarán y probarán automáticamente múltiples conjuntos de datos y modelos, y los resultados estarán disponibles en unos minutos.

  3. Transparente y reproducible: LMMs-Eval tiene una herramienta de registro unificada incorporada. Se registrará cada pregunta respondida por el modelo y si es correcta o no, lo que garantiza reproducibilidad y transparencia. También facilita la comparación de las ventajas y desventajas de diferentes modelos.


La visión de LMMs-Eval es que los futuros modelos multimodales ya no requieran escribir su propio código de procesamiento, inferencia y envío de datos. En el entorno actual, donde los conjuntos de pruebas multimodales están altamente concentrados, este enfoque no es realista y las puntuaciones medidas son difíciles de comparar directamente con otros modelos. Al acceder a LMMs-Eval, los formadores de modelos pueden centrarse más en mejorar y optimizar el modelo en sí, en lugar de dedicar tiempo a la evaluación y la alineación de los resultados.


El "triángulo imposible" de la evaluación


El objetivo final de LMMs-Eval es encontrar un método para evaluar LMM con 1. amplia cobertura, 2. bajo costo y 3. cero fuga de datos. Sin embargo, incluso con LMMs-Eval, el equipo de autores descubrió que es difícil o incluso imposible lograr estos tres puntos al mismo tiempo.


Como se muestra en la figura siguiente, cuando ampliaron el conjunto de datos de evaluación a más de 50, llevar a cabo una evaluación integral de estos conjuntos de datos llevó mucho tiempo. Además, estos puntos de referencia también son susceptibles de contaminarse durante el entrenamiento. Con este fin, LMMs-Eval propuso LMMs-Eval-Lite para tener en cuenta una amplia cobertura y un bajo costo. También diseñaron LiveBench para que fuera de bajo costo y sin fugas de datos.

 

LMMs-Eval-Lite: Evaluación ligera con amplia cobertura

 

Al evaluar modelos grandes, la gran cantidad de parámetros y tareas de prueba a menudo aumentan considerablemente el tiempo y el costo de la tarea de evaluación. Por lo tanto, las personas a menudo optan por utilizar conjuntos de datos más pequeños o conjuntos de datos específicos para la evaluación. Sin embargo, una evaluación limitada a menudo conduce a una falta de comprensión de las capacidades del modelo. Para tener en cuenta tanto la diversidad de la evaluación como el costo de la evaluación, LMMs-Eval lanzó LMMs-Eval-Lite.

 

LMMs-Eval-Lite tiene como objetivo construir un conjunto de puntos de referencia simplificado para proporcionar señales útiles y rápidas durante el desarrollo del modelo, evitando así el problema de la hinchazón de las pruebas actuales. Si podemos encontrar un subconjunto del conjunto de pruebas existente en el que las puntuaciones absolutas y las clasificaciones relativas entre modelos sigan siendo similares al conjunto completo, entonces podemos considerar seguro podar estos conjuntos de datos.


Para encontrar los puntos destacados de los datos en el conjunto de datos, LMMs-Eval primero utiliza los modelos CLIP y BGE para convertir el conjunto de datos de evaluación multimodal en forma de incrustación de vectores y utiliza el método de agrupamiento k-codicioso para encontrar los puntos destacados de los datos. agujas. En las pruebas, estos conjuntos de datos más pequeños aún demostraron capacidades de evaluación similares a las del conjunto completo.

 

Posteriormente, LMMs-Eval utilizó el mismo método para producir una versión Lite que cubre más conjuntos de datos. Estos conjuntos de datos están diseñados para ayudar a las personas a ahorrar costos de evaluación durante el desarrollo para juzgar rápidamente el rendimiento del modelo.

 

LiveBench: pruebas dinámicas de LMM

Los puntos de referencia tradicionales se centran en la evaluación estática utilizando preguntas y respuestas fijas. Con el progreso de la investigación multimodal, los modelos de código abierto suelen ser mejores que los modelos comerciales, como GPT-4V, en la comparación de puntuaciones, pero se quedan atrás en la experiencia real del usuario. Los Chatbots Arenas y WildVision, dinámicos y orientados al usuario, son cada vez más populares para la evaluación de modelos, pero requieren recopilar miles de preferencias de los usuarios, lo que hace que la evaluación sea extremadamente costosa.


La idea central de LiveBench es evaluar el rendimiento del modelo en un conjunto de datos continuamente actualizado para lograr contaminación cero y mantener bajos los costos. El equipo de autores recopiló datos de evaluación de la web y creó un canal para recopilar automáticamente la información global más reciente de sitios web como noticias y foros comunitarios. Para garantizar la actualidad y autenticidad de la información, el equipo de autores seleccionó fuentes de más de 60 medios de noticias, incluidos CNN, BBC, Asahi Shimbun de Japón y la Agencia de Noticias Xinhua de China, así como foros como Reddit. Los pasos específicos son los siguientes:


  1. Tome una captura de pantalla de su página de inicio y elimine anuncios y elementos que no sean noticias.

  2. Diseñe conjuntos de preguntas y respuestas utilizando los modelos multimodales más potentes disponibles actualmente, como GPT4-V, Claude-3-Opus y Gemini-1.5-Pro. Revisado y revisado por otro modelo.

  3. preguntas para garantizar la precisión y relevancia.

  4. El conjunto final de preguntas y respuestas se revisa manualmente, se recopilan aproximadamente 500 preguntas cada mes y se conservan entre 100 y 300 como el conjunto final de preguntas en vivo.

  5. Se utilizan los estándares de puntuación de LLaVA-Wilder y Vibe-Eval: las puntuaciones del modelo de puntuación se basan en las respuestas estándar proporcionadas y el rango de puntuación es [1, 10]. El modelo de puntuación predeterminado es GPT-4o, y también se incluyen Claude-3-Opus y Gemini 1.5 Pro como alternativas. Los resultados finales informados se basarán en la puntuación convertida en una métrica de precisión que oscila entre 0 y 100.

 

En el futuro, también podrá ver los datos de evaluación más recientes de los modelos multimodales actualizados dinámicamente cada mes en nuestra lista actualizada dinámicamente, así como los resultados de las últimas evaluaciones de la lista.