Новости

Университет Цинхуа возглавляет выпуск мультимодальной оценки MultiTrust: Насколько надежен GPT-4?

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Эта работа была инициирована группой разработчиков фундаментальной теории под руководством профессора Чжу Цзюня из Университета Цинхуа. В течение длительного времени команда сосредоточилась на текущих проблемах развития искусственного интеллекта, исследовала оригинальные теории искусственного интеллекта и ключевые технологии и находится на лидирующем международном уровне в исследованиях теорий состязательной безопасности и методов интеллектуальных алгоритмов. Он также провел углубленное исследование состязательной устойчивости и эффективности глубокого обучения. Основные общие проблемы, такие как эффективность использования данных. Соответствующая работа получила первую премию премии Ву Вэньцзюня в области естественных наук в области искусственного интеллекта, опубликовано более 100 статей CCF класса A, разработана платформа алгоритмов контратаки ARES с открытым исходным кодом (https://github.com/thu-ml/ares). и реализовали некоторые запатентованные продукты. Превратите обучение и исследования в практическое применение.

Мультимодальные модели большого языка (MLLM), представленные GPT-4o, привлекли большое внимание благодаря своей превосходной производительности в различных модальностях, таких как язык и изображения. Они не только стали правыми помощниками пользователей в повседневной работе, но и постепенно проникли в основные области применения, такие как автономное вождение и медицинская диагностика, положив начало технологической революции.

Однако безопасны и надежны ли мультимодальные крупные модели?



Рисунок 1. Пример состязательной атаки GPT-4o

Как показано на рисунке 1, изменяя пиксели изображения посредством состязательных атак, GPT-4o ошибочно идентифицировал статую Мерлиона в Сингапуре как Эйфелеву башню в Париже или Биг-Бен в Лондоне. Содержимое таких объектов ошибок можно настраивать по желанию, даже за пределами безопасных границ приложения модели.



Рисунок 2. Пример джейлбрейка Claude3.

В сценарии взлома джейлбрейка, хотя Клод успешно отклонил вредоносный запрос в текстовой форме, когда пользователь вводит дополнительное несвязанное изображение сплошного цвета, модель выдает ложные новости в соответствии с запросом пользователя. Это означает, что большие мультимодальные модели несут больше рисков и проблем, чем большие языковые модели.

В дополнение к этим двум примерам, мультимодальные большие модели также имеют различные угрозы безопасности или социальные риски, такие как иллюзии, предвзятость и утечка конфиденциальной информации, что серьезно повлияет на их надежность и достоверность в практическом применении. Возникают ли эти проблемы с уязвимостями случайно или они широко распространены? Каковы различия в достоверности различных мультимодальных крупных моделей и откуда они берутся?

Недавно исследователи из Университета Цинхуа, Университета Бэйхан, Шанхайского университета Цзяо Тонг и Ruilai Intelligence совместно написали стостраничную статью и выпустили комплексный тест под названием MultiTrust, который впервые всесторонне оценивает надежность основных мультимодальных больших моделей на основе множества измерения и перспективы, демонстрируя многочисленные потенциальные риски безопасности и вдохновляя на следующую разработку мультимодальных больших моделей.



Название статьи: Сравнительный анализ надежности мультимодальных моделей большого языка: комплексное исследование

Ссылка на документ: https://arxiv.org/pdf/2406.07057.

Домашняя страница проекта: https://multi-trust.github.io/

Репозиторий кода: https://github.com/thu-ml/MMTrustEval.

Платформа тестирования MultiTrust

Из существующей большой работы по оценке моделей MultiTrust выделил пять параметров оценки достоверности (правдивость, безопасность, надежность, справедливость и защита конфиденциальности), а также провел вторичную классификацию и целенаправленно конструировал задачи, индикаторы и наборы данных. комплексная оценка.



Рисунок 4. Схема структуры MultiTrust.

Сосредоточив внимание на 10 заслуживающих доверия подгруппах оценки, MultiTrust создал 32 различных сценария задач, охватывающих задачи распознавания и генерации, включая чисто текстовые задачи и мультимодальные задачи. Наборы данных, соответствующие задачам, не только преобразуются и адаптируются на основе общедоступных наборов текстовых или графических данных, но также создаются более сложные и сложные данные посредством ручного сбора или синтеза алгоритмов.



Рис. 5. Список задач MultiTrust

В отличие от достоверной оценки больших языковых моделей (LLM), мультимодальные особенности MLLM открывают более разнообразные и сложные сценарии и возможности риска. Чтобы лучше проводить систематическую оценку, тест MultiTrust не только начинается с традиционного измерения поведенческой оценки, но также новаторски вводит две точки зрения оценки мультимодального риска и кросс-модального воздействия, всесторонне охватывая новые проблемы, возникающие в результате новых методов. . Новый задача.



Рисунок 6. Диаграмма мультимодальных рисков и кросс-модальных воздействий.

В частности, мультимодальные риски относятся к новым рискам, возникающим в мультимодальных сценариях, таким как возможные неправильные ответы, когда модели обрабатывают визуальную вводящую в заблуждение информацию, и неверные суждения в мультимодальных рассуждениях, связанных с проблемами безопасности. Хотя модель может правильно идентифицировать алкоголь на картинке, в дальнейших рассуждениях некоторые модели не осознают потенциального риска совместного использования его с цефалоспориновыми препаратами.



Рисунок 7. Модель допускает неверные суждения в рассуждениях, связанных с проблемами безопасности.

Кросс-модальное воздействие означает влияние добавления новых модальностей на достоверность исходной модальности. Например, ввод нерелевантных изображений может изменить достоверное поведение магистральной сети большой языковой модели в сценах с простым текстом, что приведет к большему количеству ошибок. непредсказуемость, риски безопасности. При джейлбрейк-атаках и задачах контекстной утечки конфиденциальной информации, обычно используемых для оценки достоверности большой языковой модели, если модель снабжена изображением, не имеющим ничего общего с текстом, исходное поведение безопасности может быть нарушено (рис. 2).

Анализ результатов и ключевые выводы



Рис. 8. Обновленный в режиме реального времени список достоверности (часть)

Исследователи поддерживают регулярно обновляемый список достоверных мультимодальных больших моделей и добавляют в него новейшие модели, такие как GPT-4o и Claude3.5. В целом коммерческие модели с закрытым исходным кодом более безопасны, чем основные модели с открытым исходным кодом. Среди них GPT-4 от OpenAI и Claude от Anthropic заняли первое место по надежности, а Microsoft Phi-3, который добавил соответствие безопасности, занял первое место среди моделей с открытым исходным кодом, но все еще существует определенный разрыв с моделью с закрытым исходным кодом.

В коммерческих моделях, таких как GPT-4, Claude и Gemini, реализовано множество технологий усиления безопасности и надежности, но все еще существуют некоторые риски безопасности и надежности. Например, они по-прежнему уязвимы к состязательным атакам, мультимодальным атакам с джейлбрейком и т. д., что сильно ухудшает качество обслуживания и доверие пользователей.



Рис. 9. Gemini выдает опасный контент в результате мультимодальных джейлбрейк-атак

Хотя оценки многих моделей с открытым исходным кодом в основных общих списках эквивалентны GPT-4 или даже превосходят их, в тестах на уровне доверия эти модели по-прежнему демонстрируют слабые места и уязвимости в различных аспектах. Например, акцент на общих возможностях (таких как распознавание символов) на этапе обучения делает встраивание взломанного текста и конфиденциальной информации во входные изображения более опасным источником риска.

Основываясь на экспериментальных результатах кросс-модальных эффектов, авторы обнаружили, что мультимодальное обучение и вывод ослабляют механизм безопасного выравнивания больших языковых моделей. Многие мультимодальные большие модели будут использовать согласованные большие языковые модели в качестве магистральной сети и выполнять точную настройку в процессе мультимодального обучения. Результаты показывают, что эти модели по-прежнему демонстрируют серьезные уязвимости безопасности и вероятные риски. В то же время в нескольких задачах оценки достоверности чистого текста введение изображений во время рассуждений также будет влиять и мешать достоверному поведению модели.



Рисунок 10. После добавления изображений модель более склонна раскрывать личный контент в тексте.

Экспериментальные результаты показывают, что существует определенная корреляция между достоверностью мультимодальных больших моделей и их общими возможностями, но все же существуют различия в производительности моделей по разным параметрам оценки достоверности. В настоящее время обычных мультимодальных алгоритмов, связанных с большими моделями, таких как наборы данных тонкой настройки, генерируемые с помощью GPT-4V, RLHF для галлюцинаций и т. д., недостаточно для полного повышения достоверности модели. Существующие выводы также показывают, что мультимодальные большие модели имеют уникальные проблемы, которые отличаются от больших языковых моделей, и для дальнейшего совершенствования необходимы инновационные и эффективные алгоритмы.

Подробные результаты и анализ см. в статье.

будущее направление

Результаты показывают, что повышение достоверности крупных мультимодальных моделей требует особого внимания со стороны исследователей. Использование решений для согласования больших языковых моделей, разнообразных обучающих данных и сценариев, а также таких парадигм, как Retrival Enhanced Generation (RAG) и Конституционный ИИ (Конституционный ИИ), может помочь в определенной степени улучшить ситуацию. Но повышение достоверности мультимодальных больших моделей выходит за рамки этого. Согласование модальностей и надежность визуальных кодировщиков также являются ключевыми факторами влияния. Кроме того, важным направлением в будущем также является повышение производительности моделей в практических приложениях посредством непрерывной оценки и оптимизации в динамических средах.

Наряду с выпуском теста MultiTrust исследовательская группа также выпустила набор инструментов для оценки надежности мультимодальных больших моделей MMTrustEval. Его характеристики модульности интеграции и оценки служат важным инструментом для исследования достоверности мультимодальных больших моделей. На основе этой работы и набора инструментов команда организовала мультимодальный конкурс данных и алгоритмов, связанных с безопасностью больших моделей [1,2], чтобы способствовать заслуживающим доверия исследованиям больших моделей. В будущем, при постоянном развитии технологий, мультимодальные большие модели покажут свой потенциал в большем количестве областей, но вопрос их достоверности по-прежнему требует постоянного внимания и углубленных исследований.

[1] CCDM2024 Мультимодальная модель большого языка Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main

[2] 3-й конкурс алгоритмов Пачжоу — технология усиления безопасности алгоритмов мультимодальных больших моделей https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000