nouvelles

ACL 2024 Oral|À quelle distance sommes-nous d'un véritable raisonnement en chaîne de pensée multimodal ?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Chen Qiguang, le premier auteur de l'article, étudie actuellement au laboratoire Sier de l'Institut de technologie de Harbin. Ses principaux axes de recherche incluent les chaînes de pensée des grands modèles, les grands modèles multilingues, etc.

Au cours des dernières années, les grands modèles linguistiques (LLM) ont fait des progrès révolutionnaires dans le domaine du traitement du langage naturel (NLP). Ces modèles peuvent non seulement comprendre des contextes complexes, mais également générer un texte cohérent et logiquement rigoureux.

Cependant, avec le développement de la science et de la technologie et la diversification des scénarios d'application, la capacité d'une seule modalité de texte n'est évidemment plus en mesure de répondre aux besoins modernes. Les gens attendent de plus en plus de systèmes intelligents capables de traiter et de comprendre plusieurs informations modales (telles que des images, des vidéos, de l'audio, etc.) pour faire face à des tâches et des scénarios plus complexes. Les chercheurs ont commencé à essayer d’étendre les capacités du CoT textuel au domaine du raisonnement en chaîne de pensée multimodal pour faire face à des exigences de tâches plus complexes et plus diverses.

L'une des premières études sur la chaîne de pensée multimodale est le benchmark ScienceQA introduit par Lu et al [1], qui combine des informations visuelles et linguistiques pour promouvoir le développement d'une chaîne de pensée multimodale (MCoT). L’émergence de l’ensemble de données ScienceQA permet aux chercheurs d’évaluer les capacités de raisonnement en chaîne de pensée des modèles multimodaux dans un cadre unifié.

De plus, les recherches de Zhang et al. [2] ont poussé les performances du MCoT à un nouveau sommet, faisant en sorte que les performances du modèle sur l'ensemble de données ScienceQA dépassent le niveau humain (93 % > 88 %). Cependant, la recherche actuelle sur la chaîne de pensée multimodale répond-elle réellement à tous les défis ? Alors que les résultats de tests de référence tels que ScienceQA continuent de s’actualiser, pouvons-nous penser que le problème du raisonnement multimodal a été résolu ?

Grâce à une analyse approfondie, les chercheurs ont découvert que le référentiel actuel de la chaîne de pensée multimodale présente encore de sérieux problèmes, conduisant à une surestimation des capacités réelles du modèle. Le référentiel actuel de la chaîne de pensée multimodale est toujours confronté aux trois problèmes sérieux suivants :Raisonnement modal visuel manquantUniquement un raisonnement modal visuel en une seule étapeainsi queCouverture de zone insuffisante

Ces problèmes limitent sérieusement le développement du domaine de la chaîne de pensée multimodale. Les chercheurs ont donc proposé une nouvelle référence



(Multi-Domain Multi-step Multi-modal Chain-of-Thought), vise à résoudre les problèmes ci-dessus et à promouvoir le progrès des chaînes de pensée multi-domaines, multi-étapes et multimodales. Les chercheurs ont également mené une évaluation complète impliquant de riches paramètres et méthodes d’inférence multimodale.

Les chercheurs ont également découvert que les grands modèles multimodaux actuels ont



Leurs performances présentent d’énormes défauts de performance, même s’ils ont obtenu de bons résultats par rapport aux précédents benchmarks traditionnels de chaîne de pensée multimodale. En fin de compte, l'équipe de recherche espère



Il peut devenir une ressource précieuse et constituer une base révolutionnaire pour la recherche sur les chaînes de pensée multi-domaines, multi-étapes et multimodales.



Adresse de la liste : https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

Adresse papier : https://arxiv.org/abs/2405.16473

Adresse du code : https://github.com/LightChen233/M3CoT

motivation

Malgré des progrès significatifs dans le domaine de la recherche MCoT, les benchmarks existants présentent encore de nombreuses lacunes :

1.Raisonnement modal visuel manquant: Les modèles peuvent souvent générer des raisonnements et des réponses basés uniquement sur des modalités textuelles, ce qui ne reflète pas vraiment les capacités des modèles CoT multimodaux.

2.Raisonnement modal visuel en une seule étape: Par exemple, il suffit de voir la « plume » sur l’image une seule fois pour obtenir directement la réponse. Dans les applications pratiques, le raisonnement en plusieurs étapes est plus courant et nécessaire, ce qui nécessite que le modèle combine dynamiquement des informations multimodales à plusieurs reprises au cours du processus de raisonnement pour effectuer un raisonnement complet.

3.Domaine manquant: Pour la chaîne de réflexion, le raisonnement de bon sens et le raisonnement mathématique sont des composants importants dans ce domaine, mais les références existantes ne couvrent pas des domaines importants tels que le bon sens et les mathématiques, ce qui limite l'évaluation complète des capacités CoT multimodales.



Pour résoudre les problèmes ci-dessus, les chercheurs ont développé une nouvelle référence



, et espère promouvoir la recherche et le développement de chaînes de pensée multi-domaines, multi-étapes et multimodales.



Processus de construction des données





La construction de comporte les quatre étapes clés suivantes :



Diffusion en continu des résultats d'évaluation de grands modèles de langage multimodaux

Les chercheurs ont mené des expériences approfondies sur plusieurs modèles de langage visuel à grande échelle (VLLM), notamment Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini et GPT4V. Les chercheurs ont également exploré certaines stratégies d'incitation, telles que la soumission directe d'échantillons, l'incitation en chaîne de pensée (CoT) [3] et l'incitation descriptive (Desp-CoT) [4] et la stratégie d'incitation en chaîne de pensée par diagramme de scène (CCoT) [5 ].





analyser







explorer

Sur cette base, les chercheurs ont exploré plus en détail diverses méthodes et paramètres multimodaux actuellement couramment utilisés pour déterminer s'ils pouvaient résoudre efficacement les problèmes de santé.



problèmes dans.

Exploration de l'utilisation des outils

Dans l'inférence multimodale, l'utilisation d'outils est considérée comme une stratégie efficace pour améliorer les performances du modèle. Les chercheurs ont évalué l'utilisation de plusieurs outils dans des expériences, notamment des modèles tels que HuggingGPT, VisualChatGPT, IdealGPT et Chameleon.

Texte de grands modèles à l'aide d'outils multimodaux dans



Mauvaises performances sur : Les résultats expérimentaux montrent que bien que ces outils fonctionnent bien sur des tâches monomodales, ils



Il existe encore un écart de performance important par rapport à l'indice de référence. Par exemple, lorsque HuggingGPT gère des tâches de raisonnement complexes en plusieurs étapes, ses performances sont relativement inférieures en raison du manque d'utilisation efficace des informations visuelles. De plus, VisualChatGPT et IdealGPT n'ont pas non plus répondu aux attentes lors de la gestion de tâches nécessitant une interaction multimodale. Ces résultats suggèrent que les cadres d'utilisation actuels des outils doivent encore être améliorés pour mieux intégrer et utiliser les informations multimodales.



Exploration de l'apprentissage contextuel





Commande d'exploration affinée



Conclusion et perspectives



Références :

[1] Lu et al. Apprendre à expliquer : Raisonnement multimodal via

Chaînes de pensée pour répondre aux questions scientifiques. Dans Proc. de NeurIPS 2022.

[2] Zhang et al. Raisonnement multimodal avec graphique de connaissances multimodal. ACL 2024.

[3] Kojima et al. Les grands modèles de langage sont des raisonneurs à coup zéro. Dans Proc. de NeurIPS 2022.

[4] Wu et al. Le rôle de la chaîne de pensée dans une tâche complexe de raisonnement vision-langage. Arxiv 2023.

[5] Mitra et al. Incitatifs à la chaîne de pensée compositionnelle pour les grands modèles multimodaux. CVPR 2024.