новости

ACL 2024 Устный | Насколько далеки мы от истинного мультимодального цепного мышления?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Чэнь Цигуан, первый автор статьи, в настоящее время учится в лаборатории Сиэр Харбинского технологического института. Его основные направления исследований включают большие модельные цепочки мышления, межъязыковые большие модели и т. д.

За последние несколько лет модели большого языка (LLM) добились прорывного прогресса в области обработки естественного языка (NLP). Эти модели способны не только понимать сложные контексты, но и генерировать связный и логически строгий текст.

Однако с развитием науки и техники и диверсификацией сценариев применения возможности единой текстовой модальности очевидно уже не в состоянии удовлетворить современные потребности. Люди все чаще ждут интеллектуальных систем, способных обрабатывать и понимать множественную модальную информацию (например, изображения, видео, аудио и т. д.), чтобы справляться с более сложными задачами и сценариями. Исследователи начали пытаться распространить возможности текстового CoT на область мультимодального цепного мышления, чтобы справиться с более сложными и разнообразными требованиями задач.

Одним из самых ранних исследований мультимодальной цепочки мышления является тест ScienceQA, предложенный Лу и др. [1], который объединяет визуальную и лингвистическую информацию для содействия развитию мультимодальной цепочки мышления (MCoT). Появление набора данных ScienceQA позволяет исследователям оценивать возможности цепочки мышления мультимодальных моделей в рамках единой структуры.

Кроме того, исследование Чжана и др. [2] подняло производительность MCoT на новый максимум, в результате чего производительность модели на наборе данных ScienceQA превысила человеческий уровень (93%>88%). Однако действительно ли нынешние исследования мультимодальной цепочки мышления решают все проблемы? Поскольку результаты эталонных тестов, таких как ScienceQA, продолжают обновляться, можем ли мы думать, что проблема мультимодальных рассуждений решена?

Благодаря углубленному анализу исследователи обнаружили, что текущий тест мультимодальной цепочки мышления по-прежнему имеет серьезные проблемы, приводящие к переоценке реальных возможностей модели. Текущий эталон мультимодальной цепочки мышления по-прежнему сталкивается со следующими тремя серьезными проблемами:Отсутствует визуальное модальное мышлениеТолько одношаговое визуальное модальное рассуждениеа такжеНедостаточное покрытие территории

Эти проблемы серьезно ограничивают развитие области мультимодального мышления. Поэтому исследователи предложили новый ориентир



(Многодоменная, многошаговая, мультимодальная цепочка мыслей), направлена ​​на решение вышеуказанных проблем и содействие развитию многодоменных, многошаговых и мультимодальных цепочек мышления. Исследователи также провели комплексную оценку, используя богатые настройки и методы мультимодального вывода.

Исследователи также обнаружили, что современные крупные мультимодальные модели



В их производительности есть огромные недостатки, хотя они хорошо показали себя в предыдущих тестах традиционных мультимодальных цепочек мышления. В конечном итоге, исследовательская группа надеется



Он может стать ценным ресурсом и обеспечить новаторскую основу для исследований многопрофильных, многоступенчатых и мультимодальных цепочек мышления.



Адрес списка: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html.

Адрес статьи: https://arxiv.org/abs/2405.16473

Адрес кода: https://github.com/LightChen233/M3CoT

мотивация

Несмотря на значительный прогресс в области исследований MCoT, существующие тесты по-прежнему имеют множество недостатков:

1.Отсутствует визуальное модальное мышление: Модели часто могут генерировать рассуждения и ответы, основанные только на текстовых модальностях, что не совсем отражает возможности мультимодальных моделей ЦТ.

2.Одношаговое визуальное модальное рассуждение: Например, вам нужно всего один раз увидеть «перо» на картинке, чтобы получить прямой ответ. В практических приложениях многоэтапное рассуждение является более распространенным и необходимым, требуя от модели многократного динамического объединения мультимодальной информации в процессе рассуждения для выполнения комплексного рассуждения.

3.Отсутствует домен: Для цепочки мышления важными компонентами в этой области являются здравый смысл и математические рассуждения, но существующие тесты не охватывают такие важные области, как здравый смысл и математика, что ограничивает всестороннюю оценку возможностей мультимодального ЦТ.



Чтобы решить вышеуказанные проблемы, исследователи разработали новый тест



и надеется способствовать исследованиям и разработкам многоотраслевых, многоступенчатых и мультимодальных цепочек мышления.



Процесс построения данных





Строительство включает в себя следующие четыре основных этапа:



Потоковая передача результатов оценки мультимодальной модели большого языка

Исследователи провели обширные эксперименты на нескольких крупномасштабных моделях визуального языка (VLLM), включая Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini и GPT4V. Исследователи также изучили некоторые стратегии подсказок, такие как прямая подача образца, подсказка по цепочке мыслей (CoT) [3] и описательная подсказка (Desp-CoT) [4], а также стратегия подсказок по цепочке мыслей в виде диаграммы сцены (CCoT) [5]. ].





анализировать







исследовать

На этой основе исследователи дополнительно изучили различные широко используемые в настоящее время мультимодальные методы и настройки, чтобы выяснить, могут ли они эффективно решить проблему.



проблемы в.

Исследование использования инструмента

В мультимодальном выводе использование инструмента считается эффективной стратегией улучшения производительности модели. Исследователи оценили использование в экспериментах нескольких инструментов, включая такие модели, как HuggingGPT, VisualChatGPT, IdealGPT и Chameleon.

Текст больших моделей с использованием мультимодальных инструментов в



Плохая производительность: экспериментальные результаты показывают, что, хотя эти инструменты хорошо справляются с одномодальными задачами, они



По-прежнему существует значительный разрыв в производительности по эталонному тесту. Например, когда HuggingGPT справляется со сложными многоэтапными задачами рассуждения, его производительность относительно низка из-за недостаточного эффективного использования визуальной информации. Кроме того, VisualChatGPT и IdealGPT также не оправдали ожиданий при решении задач, требующих мультимодального взаимодействия. Эти результаты показывают, что существующие структуры использования инструментов нуждаются в дальнейшем совершенствовании, чтобы лучше интегрировать и использовать мультимодальную информацию.



Исследование контекстного обучения





Команда тонкой настройки исследования



Выводы и перспективы



Ссылки:

[1] Лу и др. Учимся объяснять: мультимодальное рассуждение с помощью

Цепочки мыслей для ответа на вопросы в науке. В материалах NeurIPS 2022.

[2] Чжан и др. Мультимодальное рассуждение с мультимодальным графом знаний. ACL 2024.

[3] Кодзима и др. Большие языковые модели — это рассуждения с нулевым выстрелом. В Proc. of NeurIPS 2022.

[4] Ву и др. Роль цепочки мыслей в сложной задаче зрительно-языкового рассуждения. Arxiv 2023.

[5] Митра и др. Композиционная цепочка мыслей для больших мультимодальных моделей. CVPR 2024.