У большой модели свое понимание языка! Статья MIT раскрывает процесс мышления большой модели ICML 24

У большой модели свое понимание языка! Статья MIT раскрывает процесс мышления большой модели ICML 24 |

2024-08-17

Креси происходит из храма Аофей.
Кубит | Официальный аккаунт QbitAI

Большие модели могут сформировать ваше собственное представление о реальном мире!

Исследование Массачусетского технологического института показало, что по мере того, как модель становится более способной, ее понимание реальности может выходить за рамки простого подражания.

Например, если большая модель никогда не чувствовала запаха, означает ли это, что она не может понимать запахи?

Исследования показали, что он может спонтанно моделировать некоторые концепции для облегчения понимания.

Это исследование означает, чтоОжидается, что в будущем большие модели обеспечат более глубокое понимание языка и мира., статья была принята ICML 24.

Авторами этой статьи являются китайский докторант Чарльз Цзинь и его научный руководитель профессор Мартин Ринар из Лаборатории компьютеров и искусственного интеллекта Массачусетского технологического института (CSAIL).

В ходе исследования автор попросил большую модель выучить только текст кода и обнаружил, что модель постепенно уловила смысл, стоящий за ним.

Профессор Ринард сказал, что это исследование напрямую нацелено на ключевую проблему современного искусственного интеллекта —

Происходит ли сила больших моделей просто в крупномасштабных статистических корреляциях, или они обеспечивают значимое понимание реальных проблем, для решения которых они предназначены?

△Источник: официальный сайт MIT.

В то же время это исследование также вызвало много дискуссий.

Некоторые пользователи сети заявили, что, хотя крупные модели могут понимать язык иначе, чем люди, это исследование, по крайней мере, показывает, что модели делают больше, чем просто запоминают данные обучения.

Пусть большие модели изучают чистый код

Чтобы выяснить, могут ли большие модели обеспечить понимание на семантическом уровне, автор построилПрограммный код и соответствующие ему входные и выходные данныесинтетический набор данных.

Эти программы написаны с использованием программы под названиемКарелОн написан на учебном языке и в основном используется для реализации задач навигации робота в двумерном мире сетки.

Этот сеточный мир состоит из сеток 8x8, каждая сетка может содержать препятствия, маркеры или открытые пространства. Робот может перемещаться между сетками и выполнять такие операции, как размещение/сбор маркеров.

Язык Карель содержит 5 примитивных операций - перемещение (на один шаг вперед), поворот влево (поворот влево на 90 градусов), поворот вправо (поворот вправо на 90 градусов), PickMarker (взять маркер), putMarker (поместить маркер). Программа состоит из этих примитивов. операции. Последовательность операций.

Авторы случайным образом создали обучающую выборку, содержащую 500 000 программ Karel, длина каждой программы от 6 до 10.

Каждая обучающая выборка состоит из трех частей: 5 входных состояний, 5 выходных состояний и полного программного кода. Входные и выходные состояния кодируются в строки в определенном формате.

Используя эти данные, авторы обучили вариант модели CodeGen стандартной архитектуры Transformer.

В процессе обучения модель может получить доступ к входной и выходной информации и префиксу программы в каждом образце, ноНевозможно увидеть полную траекторию и промежуточные состояния выполнения программы.。

В дополнение к обучающему набору автор также создал тестовый набор, содержащий 10 000 образцов, для оценки эффективности обобщения модели.

Чтобы изучить, уловила ли языковая модель семантику кода и в то же время глубоко понять «процесс мышления» модели, автор разработал комбинацию детекторов, включающую линейный классификатор и одно-/двойной скрытый слой MLP.

Входом детектора является скрытое состояние языковой модели в процессе генерации токенов программы, а целью прогнозирования является промежуточное состояние выполнения программы, включая ориентацию робота, смещение относительно исходного положения и то, обращен ли он лицом к лицу. вперед к препятствию (препятствию) эти три характеристики.

В процессе обучения генеративной модели автор записывал три вышеуказанные функции каждые 4000 шагов, а также записывал скрытое состояние генеративной модели для формирования набора обучающих данных для детектора.

Три этапа обучения большой модели

Наблюдая, как в процессе обучения изменяются разнообразие, запутанность и другие показатели программ, генерируемых языковой моделью, автор разделяет процесс обучения на три этапа:

Стадия лепета: выходная программа часто повторяется, а точность детектора нестабильна.
Этап освоения грамматики: разнообразие программ быстро увеличивается, точность генерации незначительно увеличивается, а путаница уменьшается, что указывает на то, что языковая модель приобрела синтаксическую структуру программы.
Этап семантического приобретения: степень разнообразия программ и освоения синтаксической структуры стабильна, но точность генерации и производительность детектора значительно улучшаются, что указывает на то, что языковая модель приобрела семантику программы.

В частности, этап Babbling занимает первые 50% всего процесса обучения. Например, когда обучение достигает примерно 20%, независимо от того, какая спецификация введена, модель будет генерировать только фиксированную программу — «pickMarker», повторяемую 9 раз.

Этап усвоения грамматики составляет от 50% до 75% процесса обучения. Сложность модели в программе Karel значительно снизилась, что указывает на то, что языковая модель начала лучше адаптироваться к статистическим характеристикам программы Karel, но точность. сгенерированная программа существенно не улучшилась (примерно с 10% до примерно 25%), она по-прежнему не может точно выполнить задачу.

Этап семантического усвоения — последние 25%. Точность программы резко возросла, примерно с 25% до более чем 90%. Сгенерированная программа может точно выполнить поставленную задачу.

Дальнейшие эксперименты показали, что детектор может не только предсказывать временной шаг синхронизации в момент времени t, но иПрогнозирование статуса выполнения программы на последующих временных шагах。

Например, предположим, что генеративная модель генерирует токен «движение» в момент времени t и генерирует «поворот влево» в момент времени t+1.

При этом состояние программы в момент времени t таково, что робот смотрит на север и находится в координатах (0,0), а в момент времени t+1 робот будет смотреть на запад, с положением без изменений.

Если детектор может успешно предсказать по скрытому состоянию языковой модели в момент времени t, что робот будет смотреть на запад в момент времени t+1, это означает, что перед генерированием «поворота влево» скрытое состояние уже содержит изменение состояния, вызванное этим информация о операции.

Это явление показывает, что модель не только имеет семантическое понимание сгенерированной части программы, но и на каждом этапе генерации уже предвидит и планирует контент, который будет сгенерирован следующим, демонстрируя предварительноеНавыки рассуждения, ориентированные на будущее。

Но это открытие поставило новые вопросы в этом исследовании.

Действительно ли улучшение точности, наблюдаемое в эксперименте, является улучшением генеративной модели или это результат собственных выводов детектора?

Чтобы разрешить это сомнение, автор добавилЭксперимент по вмешательству семантического обнаружения。

Основная идея эксперимента заключается в изменении правил смысловой интерпретации программных операций, которые делятся на два метода: «переворот» и «состязательный».

«Flip» — это принудительное изменение значения инструкции. Например, «turnRight» принудительно интерпретируется как «поворот налево». Однако только «turnLeft» и «turnRight» могут выполнить такой вид разворота;

«Состязательный» случайным образом перемешивает семантику, соответствующую всем инструкциям. Конкретный метод показан в таблице ниже.

Если скрытое состояние генеративной модели кодирует только синтаксическую структуру программы, а не семантическую информацию, то детектор все равно должен иметь возможность извлекать измененную семантическую информацию из скрытого состояния с эквивалентной производительностью.

Напротив, если производительность детектора значительно падает, это означает, что улучшение производительности, показанное детектором, действительно происходит потому, что скрытое состояние генеративной модели кодирует реальную семантику.

Результаты экспериментов показывают, что производительность детектора значительно падает при использовании обеих новых семантик.

Особенно это заметно в «состязательном» режиме, что согласуется также с той особенностью, что семантика в этом режиме существенно отличается от исходной семантики.

Эти результаты полностью исключают возможность того, что детектор «самостоятельно изучает семантическое отображение», и еще раз подтверждают, что генеративная модель действительно улавливает смысл кода.

Бумажный адрес:
https://icml.cc/virtual/2024/poster/34849
Справочные ссылки:
[1]https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/

новости