berita

ACL 2024 Lisan|Seberapa jauh kita dari penalaran rantai pemikiran multi-modal yang sebenarnya?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Chen Qiguang, penulis pertama artikel tersebut, saat ini sedang belajar di Laboratorium Sier Institut Teknologi Harbin. Arahan penelitian utamanya mencakup rantai pemikiran model besar, model besar lintas bahasa, dll.

Dalam beberapa tahun terakhir, Large Language Model (LLM) telah membuat kemajuan terobosan di bidang pemrosesan bahasa alami (NLP). Model-model ini tidak hanya dapat memahami konteks yang kompleks, namun juga menghasilkan teks yang koheren dan teliti secara logis.

Namun seiring dengan berkembangnya ilmu pengetahuan dan teknologi serta semakin beragamnya skenario penerapan, kemampuan modalitas teks tunggal jelas sudah tidak mampu lagi memenuhi kebutuhan modern. Masyarakat semakin menantikan sistem cerdas yang dapat memproses dan memahami berbagai informasi modal (seperti gambar, video, audio, dll.) untuk mengatasi tugas dan skenario yang lebih kompleks. Para peneliti telah mulai mencoba memperluas kemampuan teks CoT ke bidang penalaran rantai pemikiran multi-modal untuk mengatasi persyaratan tugas yang lebih kompleks dan beragam.

Salah satu studi paling awal tentang rantai pemikiran multi-modal adalah benchmark ScienceQA yang diperkenalkan oleh Lu et al. [1], yang menggabungkan informasi visual dan linguistik untuk mendorong pengembangan rantai pemikiran multi-modal (MCoT). Munculnya kumpulan data ScienceQA memungkinkan peneliti untuk mengevaluasi kemampuan penalaran rantai pemikiran model multi-modal di bawah kerangka terpadu.

Lebih lanjut, penelitian yang dilakukan oleh Zhang et al. [2] mendorong performa MCoT ke level tertinggi baru, membuat performa model pada kumpulan data ScienceQA melebihi level manusia (93%>88%). Namun, apakah penelitian rantai pemikiran multimoda saat ini benar-benar mampu menjawab semua tantangan? Ketika hasil tes benchmark seperti ScienceQA terus diperbarui, dapatkah kita berpikir bahwa masalah penalaran multimodal telah terpecahkan?

Melalui analisis mendalam, para peneliti menemukan bahwa tolok ukur rantai pemikiran multi-modal saat ini masih memiliki masalah serius, sehingga menyebabkan perkiraan yang berlebihan terhadap kemampuan sebenarnya dari model tersebut. Tolok ukur rantai pemikiran multimodal saat ini masih menghadapi tiga permasalahan serius berikut:Penalaran modal visual tidak adaHanya penalaran modal visual satu langkahmaupunCakupan wilayah tidak memadai

Masalah-masalah ini secara serius membatasi pengembangan bidang rantai pemikiran multimodal. Oleh karena itu, peneliti mengusulkan patokan baru



(Rantai Pemikiran Multi-Domain Multi-langkah Multi-modal), bertujuan untuk memecahkan masalah di atas dan mendorong kemajuan rantai pemikiran multi-domain, multi-langkah, dan multi-modal. Para peneliti juga melakukan evaluasi komprehensif yang melibatkan pengaturan dan metode inferensi multimodal yang kaya.

Para peneliti juga menemukan bahwa model multi-modal besar saat ini mempunyai



Terdapat kekurangan kinerja yang sangat besar dalam kinerja mereka, meskipun kinerja mereka lebih unggul dibandingkan dengan tolok ukur rantai pemikiran multi-modal tradisional sebelumnya. Pada akhirnya, tim peneliti berharap



Hal ini dapat menjadi sumber daya yang berharga dan memberikan landasan inovatif bagi penelitian mengenai rantai pemikiran multi-bidang, multi-langkah, dan multi-modal.



Alamat daftar: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

Alamat makalah: https://arxiv.org/abs/2405.16473

Alamat kode: https://github.com/LightChen233/M3CoT

motivasi

Meskipun terdapat kemajuan yang signifikan dalam bidang penelitian MCoT, tolok ukur yang ada masih memiliki banyak kekurangan:

1.Penalaran modal visual tidak ada: Model seringkali dapat menghasilkan penalaran dan jawaban hanya berdasarkan modalitas teks, yang tidak benar-benar mencerminkan kemampuan model CoT multi-modal.

2.Penalaran modal visual satu langkah: Misalnya, Anda hanya perlu melihat "bulu" pada gambar satu kali untuk mendapatkan jawabannya secara langsung. Dalam aplikasi praktis, penalaran multi-langkah lebih umum dan diperlukan, sehingga mengharuskan model untuk menggabungkan informasi multi-modal secara dinamis beberapa kali selama proses penalaran untuk melakukan penalaran yang komprehensif.

3.Domain tidak ada: Untuk rantai pemikiran, penalaran akal sehat dan penalaran matematis merupakan komponen penting dalam bidang ini, namun tolok ukur yang ada kurang mencakup bidang-bidang penting seperti akal sehat dan matematika, sehingga membatasi evaluasi komprehensif kemampuan CoT multi-modal.



Untuk mengatasi masalah di atas, peneliti mengembangkan tolok ukur baru



, dan berharap untuk mempromosikan penelitian dan pengembangan rantai pemikiran multi-bidang, multi-langkah, dan multi-modal.



Proses konstruksi data





Pembangunan melibatkan empat tahap utama berikut:



Streaming hasil evaluasi model bahasa besar multimodal

Para peneliti telah melakukan eksperimen ekstensif pada beberapa model bahasa visual skala besar (VLLM), termasuk Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini, dan GPT4V. Peneliti juga telah mengeksplorasi beberapa strategi dorongan, seperti pengiriman sampel langsung, dorongan rantai pemikiran (CoT) [3] dan dorongan deskriptif (Desp-CoT) [4] dan strategi dorongan rantai pemikiran diagram adegan (CCoT) [5].





menganalisa







mengeksplorasi

Atas dasar ini, para peneliti mengeksplorasi lebih lanjut berbagai metode dan pengaturan multimodal yang umum digunakan untuk mengeksplorasi apakah metode tersebut dapat menyelesaikannya secara efektif



masalah di.

Eksplorasi penggunaan alat

Dalam inferensi multimodal, penggunaan alat dianggap sebagai strategi efektif untuk meningkatkan kinerja model. Para peneliti mengevaluasi penggunaan berbagai alat dalam eksperimen, termasuk model seperti HuggingGPT, VisualChatGPT, IdealGPT, dan Chameleon.

Teks model besar menggunakan alat multimodal di



Performa buruk pada: Hasil eksperimen menunjukkan bahwa meskipun alat ini bekerja dengan baik pada tugas modal tunggal, namun alat tersebut



Masih terdapat kesenjangan kinerja yang signifikan pada benchmark. Misalnya, ketika HuggingGPT menangani tugas penalaran multi-langkah yang kompleks, kinerjanya relatif rendah karena kurangnya penggunaan informasi visual yang efektif. Selain itu, VisualChatGPT dan IdealGPT juga gagal memenuhi ekspektasi saat menangani tugas yang memerlukan interaksi multimodal. Hasil ini menunjukkan bahwa kerangka penggunaan alat saat ini memerlukan perbaikan lebih lanjut untuk mengintegrasikan dan memanfaatkan informasi multimoda dengan lebih baik.



Eksplorasi pembelajaran kontekstual





Perintahkan eksplorasi penyempurnaan



Kesimpulan dan pandangan



Referensi:

[1] Lu et al. Belajar Menjelaskan: Penalaran Multimodal melalui

Rantai Pemikiran untuk Menjawab Pertanyaan Sains. Dalam Prosiding NeurIPS 2022.

[2] Zhang et al. Penalaran Multimodal dengan Grafik Pengetahuan Multimodal. ACL 2024.

[3] Kojima et al. Model bahasa besar adalah penalaran zero-shot. Dalam Prosiding NeurIPS 2022.

[4] Wu et al. Peran Rantai Pikiran dalam Tugas Penalaran Bahasa-Visi Kompleks. Arxiv 2023.

[5] Mitra et al. Rantai pemikiran komposisi yang mendorong model multimodal besar. CVPR 2024.