Nachricht

ACL 2024 Oral|Wie weit sind wir von einer echten multimodalen Denkkette entfernt?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Chen Qiguang, der Erstautor des Artikels, studiert derzeit im Sier-Labor des Harbin Institute of Technology. Zu seinen Hauptforschungsrichtungen gehören große Modell-Denkketten, sprachübergreifende große Modelle usw.

In den letzten Jahren haben Large Language Models (LLMs) bahnbrechende Fortschritte im Bereich der Verarbeitung natürlicher Sprache (NLP) erzielt. Diese Modelle können nicht nur komplexe Zusammenhänge verstehen, sondern auch kohärente und logisch strenge Texte generieren.

Mit der Entwicklung von Wissenschaft und Technologie und der Diversifizierung der Anwendungsszenarien ist die Fähigkeit einer einzelnen Textmodalität jedoch offensichtlich nicht mehr in der Lage, den modernen Anforderungen gerecht zu werden. Die Menschen freuen sich zunehmend auf intelligente Systeme, die mehrere modale Informationen (wie Bilder, Videos, Audio usw.) verarbeiten und verstehen können, um komplexere Aufgaben und Szenarien zu bewältigen. Forscher haben damit begonnen, die Fähigkeiten von Text-CoT auf den Bereich der multimodalen Denkkettenbegründung auszudehnen, um komplexere und vielfältigere Aufgabenanforderungen zu bewältigen.

Eine der frühesten Studien zur multimodalen Denkkette ist der von Lu et al. eingeführte ScienceQA-Benchmark, der visuelle und sprachliche Informationen kombiniert, um die Entwicklung der multimodalen Denkkette (MCoT) zu fördern. Das Aufkommen des ScienceQA-Datensatzes ermöglicht es Forschern, die Denkketten-Argumentationsfähigkeiten multimodaler Modelle in einem einheitlichen Rahmen zu bewerten.

Darüber hinaus hat die Forschung von Zhang et al. [2] die Leistung von MCoT auf einen neuen Höchststand gebracht, sodass die Leistung des Modells im ScienceQA-Datensatz das menschliche Niveau übertrifft (93 % > 88 %). Bewältigt die aktuelle Forschung zu multimodalen Denkketten jedoch wirklich alle Herausforderungen? Können wir davon ausgehen, dass das Problem des multimodalen Denkens gelöst wurde, während die Ergebnisse von Benchmark-Tests wie ScienceQA immer wieder aktualisiert werden?

Durch eine eingehende Analyse stellten die Forscher fest, dass der aktuelle Benchmark für die multimodale Denkkette immer noch ernsthafte Probleme aufweist, die zu einer Überschätzung der tatsächlichen Fähigkeiten des Modells führen. Der aktuelle Benchmark für die multimodale Denkkette steht immer noch vor den folgenden drei schwerwiegenden Problemen:Fehlendes visuelles modales DenkenNur einstufiges visuelles modales DenkensowieUnzureichende Flächenabdeckung

Diese Probleme schränken die Entwicklung des Bereichs der multimodalen Denkkette erheblich ein. Daher schlugen die Forscher einen neuen Benchmark vor



(Multi-Domain Multi-step Multi-modal Chain-of-Thought) zielt darauf ab, die oben genannten Probleme zu lösen und den Fortschritt von mehrdomänen-, mehrstufigen und multimodalen Denkketten zu fördern. Die Forscher führten außerdem eine umfassende Auswertung unter Einbeziehung umfassender multimodaler Inferenzeinstellungen und -methoden durch.

Forscher fanden auch heraus, dass dies bei aktuellen großen multimodalen Modellen der Fall ist



Ihre Leistung weist große Leistungsmängel auf, obwohl sie bei früheren traditionellen multimodalen Denkketten-Benchmarks gut abgeschnitten haben. Letztendlich hofft das Forschungsteam



Es kann zu einer wertvollen Ressource werden und eine bahnbrechende Grundlage für die Forschung zu mehrfeldigen, mehrstufigen und multimodalen Denkketten bieten.



Listenadresse: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

Papieradresse: https://arxiv.org/abs/2405.16473

Code-Adresse: https://github.com/LightChen233/M3CoT

Motivation

Trotz erheblicher Fortschritte im Bereich der MCoT-Forschung weisen bestehende Benchmarks immer noch viele Mängel auf:

1.Fehlendes visuelles modales Denken: Modelle können häufig nur auf Textmodalitäten basierende Argumente und Antworten generieren, was die Fähigkeiten multimodaler CoT-Modelle nicht wirklich widerspiegelt.

2.Visuelles modales Denken in einem Schritt: Beispielsweise müssen Sie die „Feder“ im Bild nur einmal sehen, um direkt die Antwort zu erhalten. In praktischen Anwendungen ist das mehrstufige Denken häufiger und notwendiger und erfordert, dass das Modell multimodale Informationen während des Argumentationsprozesses mehrmals dynamisch kombiniert, um eine umfassende Argumentation durchzuführen.

3.Fehlende Domäne: Für die Denkkette sind gesundes Menschenverstandsdenken und mathematisches Denken wichtige Komponenten in diesem Bereich, aber bestehende Benchmarks decken wichtige Bereiche wie gesunden Menschenverstand und Mathematik nicht ab, was die umfassende Bewertung multimodaler CoT-Fähigkeiten einschränkt.



Um die oben genannten Probleme anzugehen, haben Forscher einen neuen Benchmark entwickelt



und hofft, die Forschung und Entwicklung von mehrfeldübergreifenden, mehrstufigen und multimodalen Denkketten voranzutreiben.



Datenkonstruktionsprozess





Der Bau umfasst die folgenden vier Hauptphasen:



Streaming multimodaler Evaluierungsergebnisse für große Sprachmodelle

Forscher haben umfangreiche Experimente mit mehreren großen visuellen Sprachmodellen (VLLMs) durchgeführt, darunter Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini und GPT4V. Forscher haben auch einige Aufforderungsstrategien untersucht, wie z. B. die direkte Probenübermittlung, die Gedankenkettenaufforderung (CoT) [3] und die deskriptive Aufforderung (Desp-CoT) [4] sowie die Szenendiagramm-Denkkettenaufforderungsstrategie (CCoT) [5]. ].





analysieren







erkunden

Auf dieser Grundlage untersuchten die Forscher verschiedene derzeit häufig verwendete multimodale Methoden und Umgebungen weiter, um herauszufinden, ob sie eine wirksame Lösung bieten können



Probleme in.

Erkundung der Werkzeugnutzung

Bei der multimodalen Inferenz wird die Verwendung von Werkzeugen als wirksame Strategie zur Verbesserung der Modellleistung angesehen. Die Forscher bewerteten den Einsatz mehrerer Tools in Experimenten, darunter Modelle wie HuggingGPT, VisualChatGPT, IdealGPT und Chameleon.

Texten Sie große Modelle mit multimodalen Werkzeugen in



Schlechte Leistung bei: Experimentelle Ergebnisse zeigen, dass diese Tools zwar bei einmodalen Aufgaben eine gute Leistung erbringen, sie jedoch



Es besteht immer noch ein erheblicher Leistungsunterschied zum Benchmark. Wenn HuggingGPT beispielsweise komplexe mehrstufige Argumentationsaufgaben verarbeitet, ist seine Leistung aufgrund der mangelnden effektiven Nutzung visueller Informationen relativ gering. Darüber hinaus blieben VisualChatGPT und IdealGPT auch bei der Bewältigung von Aufgaben, die eine multimodale Interaktion erfordern, hinter den Erwartungen zurück. Diese Ergebnisse deuten darauf hin, dass die aktuellen Frameworks zur Werkzeugnutzung weiter verbessert werden müssen, um multimodale Informationen besser zu integrieren und zu nutzen.



Kontextuelle Lernerkundung





Führen Sie die Feinabstimmung der Erkundung durch



Fazit und Ausblick



Referenzen:

[1] Lu et al. Lernen zu erklären: Multimodales Denken über

Gedankenketten zur Beantwortung wissenschaftlicher Fragen. In Proc. von NeurIPS 2022.

[2] Zhang et al. Multimodales Denken mit multimodalem Wissensgraphen.

[3] Kojima et al. Große Sprachmodelle sind Zero-Shot-Reasoner. In Proc. of NeurIPS 2022.

[4] Wu et al. Die Rolle der Gedankenkette bei komplexen Aufgaben des visuell-sprachlichen Denkens. Arxiv 2023.

[5] Mitra et al. Kompositionelle Gedankenkettenanregung für große multimodale Modelle. CVPR 2024.