Mi información de contacto
Correo[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];
Chen Qiguang, el primer autor del artículo, estudia actualmente en el Laboratorio Sier del Instituto de Tecnología de Harbin. Sus principales direcciones de investigación incluyen grandes cadenas de pensamiento de modelos, grandes modelos en varios idiomas, etc.
En los últimos años, los modelos de lenguaje grande (LLM) han logrado grandes avances en el campo del procesamiento del lenguaje natural (PLN). Estos modelos no sólo pueden comprender contextos complejos, sino también generar texto coherente y lógicamente riguroso.
Sin embargo, con el desarrollo de la ciencia y la tecnología y la diversificación de los escenarios de aplicación, la capacidad de una única modalidad de texto obviamente ya no puede satisfacer las necesidades modernas. La gente espera cada vez más sistemas inteligentes que puedan procesar y comprender información modal múltiple (como imágenes, vídeos, audio, etc.) para hacer frente a tareas y escenarios más complejos. Los investigadores han comenzado a intentar ampliar las capacidades del CoT de texto al campo del razonamiento en cadena de pensamiento multimodal para hacer frente a requisitos de tareas más complejos y diversos.
Uno de los primeros estudios sobre la cadena de pensamiento multimodal es el punto de referencia ScienceQA presentado por Lu et al [1], que combina información visual y lingüística para promover el desarrollo de la investigación de la cadena de pensamiento multimodal (MCoT). La aparición del conjunto de datos ScienceQA permite a los investigadores evaluar las capacidades de razonamiento de la cadena de pensamiento de los modelos multimodales bajo un marco unificado.
Además, la investigación de Zhang et al. [2] impulsó el rendimiento de MCoT a un nuevo nivel, haciendo que el rendimiento del modelo en el conjunto de datos de ScienceQA supere el nivel humano (93%>88%). Sin embargo, ¿la investigación actual sobre cadenas de pensamiento multimodal realmente aborda todos los desafíos? A medida que los resultados de pruebas de referencia como ScienceQA continúan actualizándose, ¿podemos pensar que el problema del razonamiento multimodal se ha resuelto?
A través de un análisis en profundidad, los investigadores descubrieron que el punto de referencia actual de la cadena de pensamiento multimodal todavía tiene serios problemas, lo que lleva a una sobreestimación de las capacidades reales del modelo. El punto de referencia actual de la cadena de pensamiento multimodal todavía enfrenta los siguientes tres problemas graves:Falta razonamiento modal visual、Solo razonamiento modal visual de un solo paso.así comoCobertura de área insuficiente。
Estos problemas restringen seriamente el desarrollo del campo de la cadena de pensamiento multimodal. Por lo tanto, los investigadores propusieron un nuevo punto de referencia.
(Cadena de pensamiento multidominio, multipaso, multimodal), tiene como objetivo resolver los problemas anteriores y promover el progreso de cadenas de pensamiento multidominio, multipaso y multimodal. Los investigadores también llevaron a cabo una evaluación integral que involucró entornos y métodos de inferencia multimodal ricos.
Los investigadores también descubrieron que los grandes modelos multimodales actuales tienen
Hay enormes fallas en su desempeño, a pesar de que se han desempeñado bien en los puntos de referencia anteriores de la cadena de pensamiento multimodal tradicional. En última instancia, el equipo de investigación espera
Puede convertirse en un recurso valioso y proporcionar una base innovadora para la investigación sobre cadenas de pensamiento multicampo, multipaso y multimodal.
Dirección de la lista: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
Dirección del artículo: https://arxiv.org/abs/2405.16473
Dirección del código: https://github.com/LightChen233/M3CoT
motivación
A pesar de los importantes avances en el campo de la investigación de MCoT, los puntos de referencia existentes todavía tienen muchas deficiencias:
1.Falta razonamiento modal visual: Los modelos a menudo pueden generar razonamientos y respuestas basadas únicamente en modalidades de texto, lo que no refleja verdaderamente las capacidades de los modelos CoT multimodales.
2.Razonamiento modal visual de un solo paso: Por ejemplo, sólo necesitas ver la "pluma" en la imagen una vez para obtener la respuesta directamente. En aplicaciones prácticas, el razonamiento de varios pasos es más común y necesario, ya que requiere que el modelo combine dinámicamente información multimodal varias veces durante el proceso de razonamiento para realizar un razonamiento integral.
3.Dominio faltante: Para la cadena de pensamiento, el razonamiento de sentido común y el razonamiento matemático son componentes importantes en este campo, pero los puntos de referencia existentes carecen de cobertura de áreas importantes como el sentido común y las matemáticas, lo que limita la evaluación integral de las capacidades CoT multimodales.
Para abordar los problemas anteriores, los investigadores desarrollaron un nuevo punto de referencia
, y espera promover la investigación y el desarrollo de cadenas de pensamiento multicampo, multipaso y multimodal.
Proceso de construcción de datos
La construcción de implica las siguientes cuatro etapas clave:
Transmisión de resultados de evaluación de modelos de lenguaje grande multimodal
Los investigadores han realizado extensos experimentos en múltiples modelos de lenguaje visual (VLLM) a gran escala, incluidos Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini y GPT4V. Los investigadores también han explorado algunas estrategias de estímulo, como el envío directo de muestras, el estímulo de cadena de pensamiento (CoT) [3] y el estímulo descriptivo (Desp-CoT) [4] y la estrategia de estímulo de cadena de pensamiento de diagrama de escena (CCoT) [5 ].
analizar
explorar
Sobre esta base, los investigadores exploraron más a fondo varios métodos y entornos multimodales de uso común actualmente para explorar si pueden resolver eficazmente
problemas en.
Exploración del uso de herramientas
En la inferencia multimodal, el uso de herramientas se considera una estrategia eficaz para mejorar el rendimiento del modelo. Los investigadores evaluaron el uso de múltiples herramientas en experimentos, incluidos modelos como HuggingGPT, VisualChatGPT, IdealGPT y Chameleon.
Envíe mensajes de texto a modelos grandes utilizando herramientas multimodales en
Bajo rendimiento en: Los resultados experimentales muestran que, aunque estas herramientas funcionan bien en tareas monomodales,
Todavía existe una brecha significativa en el desempeño con respecto al índice de referencia. Por ejemplo, cuando HuggingGPT maneja tareas complejas de razonamiento de varios pasos, su rendimiento es relativamente inferior debido a la falta de un uso eficaz de la información visual. Además, VisualChatGPT e IdealGPT tampoco cumplieron con las expectativas al manejar tareas que requieren interacción multimodal. Estos resultados sugieren que los marcos de uso de herramientas actuales necesitan mejoras adicionales para integrar y utilizar mejor la información multimodal.
Exploración del aprendizaje contextual
Comando exploración de ajuste fino
Conclusión y perspectivas
Referencias:
[1] Lu et al. Aprenda a explicar: razonamiento multimodal mediante
Cadenas de pensamiento para la respuesta a preguntas científicas. En Proc. de NeurIPS 2022.
[2] Zhang et al. Razonamiento multimodal con gráficos de conocimiento multimodal. ACL 2024.
[3] Kojima et al. Los modelos de lenguaje de gran tamaño son razonadores de cero disparos. En Proc. de NeurIPS 2022.
[4] Wu et al. El papel de la cadena de pensamiento en la tarea compleja de razonamiento visión-lenguaje. Arxiv 2023.
[5] Mitra et al. Incitación a la cadena de pensamiento compositiva para grandes modelos multimodales. CVPR 2024.