Моя контактная информация
Почта[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Материал предоставлен исследовательской группой Ван Децюаня из Шанхайского университета Цзяо Тун.
Кубиты | Публичный аккаунт QbitAI
Исследовательская группа профессора Ван Дэцюана в Шанхайском университете Цзяо Тун подняла такой вопрос в своем последнем исследовании.
Представьте себе такой сценарий: ребенок в детском саду держит фотографию тигра и спрашивает вас: «Этот котенок очень милый. Это кошка?»
Вы можете не отвечать «да» или «нет» прямо, но сначала укажите на «противоречие» в этом вопросе —На этой картинке изображен тигр, а не кот.。
Однако ранее систематических исследований того, как отреагируют большие модели, проводилось мало.
Вы должны знать, что модель ИИ, которая не может обнаружить «конфликты инструкций», будет генерировать результаты для «вопросов, на которые не должно быть ответов», и независимо от того, к какой стороне конфликта предвзято сгенерированные результаты, это вызовет потенциальные катастрофы и повлияет на ИИ. безопасность и Супервыравнивание (Super Alignment).
В этом последнем исследовании команда предложилаМультимодальные тесты——противоречивый набор команди разработал инновационныйПлатформа автоматического создания наборов данных, по имениАвтосоздание。
Команда обнаружила, что мультимодальной большой модели очень не хватает обнаружения противоречивых пользовательских инструкций, поэтому они предложилиМетод когнитивного пробуждения(CAP), который привносит когнитивные способности из внешнего мира, тем самым улучшая способность обнаруживать противоречия.
Статья будет опубликована на 18-й Европейской конференции по компьютерному зрению (ECCV) в октябре этого года.
В настоящее время мультимодальные большие модели добились большого прогресса в научных исследованиях и областях применения. Они могут обрабатывать различные типы данных, включая текст и изображения, демонстрируя возможности, аналогичные человеческому познанию.
Команда считает, что успех этих моделей обусловлен обширными исследованиями и разработками, которые позволяют им внимательно следовать человеческим инструкциям, даже в некоторой степени «покорно».
Кроме того, эти модели особенно хороши в длинных контекстах. Мультимодальные крупные модели, такие как Claude 3 и Gemini 1.5 Pro, продемонстрировали мощные возможности. Модели серии Claude 3 предлагают контекстное окно из 200 тысяч токенов, стандартный размер контекстного окна Gemini 1.5 Pro составляет 128 тысяч, а на этапе частного предварительного просмотра он может даже достигать 1 миллиона токенов.
Эти достижения позволяют мультимодальным большим моделям хорошо справляться со сложными задачами и удовлетворять потребности людей в долгосрочном взаимодействии.
Однако с углублением мультимодального взаимодействия и увеличением длины контекста проблема противоречивых пользовательских инструкций становится все более заметной.
Как показано ниже, когда пользователи (например, дети или начинающие языковые) используют эти модели, они часто не подозревают о потенциальных мультимодальных конфликтах.
При этом по мере увеличения количества поворотов диалога и расширения контекстного окна пользователям становится сложно запомнить все детали, что приводит к конфликтам между инструкциями.
Более того, по мере увеличения числа модальностей могут возникать и конфликты между модальностями. Если этим моделям не хватает самосознания и способности различать противоречия, их производительность страдает.
Чтобы решить эти проблемы, исследовательская группа, работавшая над этой статьей, предложила мультимодальный эталонный тест:противоречивый набор команд(Self-Contradictory Instructions, SCI), используемый для оценки способности мультимодальных больших моделей обнаруживать конфликтующие инструкции.
SCI содержит20 000 противоречивых инструкцийи8 задач, равномерно распределенные вязык - языкивизуально-вербальныйв двух парадигмах.
В верхней части диаграммы языково-лингвистическая парадигма включает конфликты между контекстами и директивами, такие как конфликтующие правила проектирования, конфликтующие свойства объекта, исключительные директивы и запрещенная лексика.
В нижней части рисунка: визуально-лингвистическая парадигма охватывает мультимодальные конфликты, такие как конфликты распознавания текста OCR, конфликты диаграмм, геометрические конфликты и семантические конфликты. Среди восьми задач только семантические конфликты связаны с другими наборами данных (ImageNet).
Приведем конкретный пример: при конструировании семантических конфликтов исследователи сначала генерируют соответствующий текст на основе картинок, а затем заменяют ключевую смысловую информацию в тексте новой семантикой, схожей, но различной.
На картинке ниже изображен страус (Страус). Для смыслового значения картинки «страус» автор добавляет вопрос «Изображается ли на картинке размер страуса?».
Впоследствии ключевая семантика текста этого вопроса «страус» была заменена на «Киви». Таким образом строится противоречивая пара мультимодальных инструкций.
На протяжении всего процесса построения SCI автор разработал инновационную систему автоматического создания наборов данных——Автосоздание。
Он создает мультимодальный цикл через программы и большие языковые модели. Платформа использует программы и большие языковые модели для автоматического создания наборов данных.
AutoCreate начинается с нескольких исходных данных, связанных с задачами, и поддерживает исходный пул. В каждом цикле AutoCreate включает две ветви:языковое отделение(слева) ивизуальная ветка(верно). Каждая ветвь состоит из генераторов и декораторов.
Наконец, очиститель исключит данные, которые не соответствуют критериям. После прохождения проверок качества экспертами эти данные будут возвращены в исходный пул для использования в следующем раунде.
AutoCreate значительно повышает скорость создания и расширение содержимого наборов данных SCI.
Используя набор данных SCI, исследователи всесторонне оценили эффективность больших моделей при обработке противоречивых инструкций.
Результаты экспериментов показывают, что современные большие модели часто демонстрируют определенные недостатки, когда сталкиваются с противоречивыми инструкциями.
Они могут обрабатывать информацию и знания, ноОтсутствие способности оценивать разумность инструкций., то, что исследовательская группа называет «когнитивной» способностью.
Этот недостаток проистекает из недостатка самосознания и неспособности распознавать несоответствия в инструкциях.
Поэтому исследователи предложили простой метод подсказок под названием «Советы по когнитивному пробуждению”(Подсказка когнитивного пробуждения, CAP)。
CAP-пропуск на входеДобавьте простое напоминаниеКогнитивные возможности могут быть внедрены из внешнего мира, тем самым улучшая способность большой модели обнаруживать противоречия, и в принципе никакого негативного воздействия не будет.
Это открытие предполагает, что современные мультимодальные большие модели требуют большего самосознания и когнитивных способностей, чтобы лучше справляться со сложными конфликтами инструкций.
Более подробную информацию заинтересованные дети могут просмотреть в оригинальной статье.
Первый автор статьи – докторант Шанхайского университета Цзяо Тонг.Гао Цзинь。
Его исследовательские интересы включают компьютерное зрение, мультимодальные большие модели, науки о жизни, основанные на искусственном интеллекте, и т. д.
Автором-корреспондентом статьи является штатный доцент и руководитель докторской диссертации Шанхайского университета Цзяо Тонг.Ван ДецюаньОн окончил Университет Фудань со степенью бакалавра и доктором философии Калифорнийского университета в Беркли, где учился у профессора Тревора Даррелла.
Его исследовательские работы публиковались на ведущих международных конференциях, таких как CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS и т. д. За последние пять лет его статьи цитировались в Google Scholar более 10 000 раз с оценкой H-. индекс 20.
Ссылка на статью: https://arxiv.org/abs/2408.01091.
Ссылка на проект: https://selfcontradiction.github.io/