Модель мира снова становится ближе? Удивительное исследование Массачусетского технологического института: LLM смоделировал реальный мир, а не случайного попугая!

Модель мира снова становится ближе? Удивительное исследование Массачусетского технологического института: LLM смоделировал реальный мир и больше не является случайным попугаем!

2024-08-17

Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость]Исследователи из MIT CSAIL обнаружили, что LLM разработала симуляцию реальности «в глубине души», а понимание языка и мира модели гораздо больше, чем просто «попугай». Другими словами, в будущем LLM будет понимать язык глубже, чем сегодня.

Насколько LLM далек от мировой модели?

В прошлом году в статье Массачусетского технологического института был сделан неожиданный вывод: внутри LLM существует модель мира.

LLM не только изучает статистику поверхности, но также изучает модель мира, включая основные широты, такие как пространство и время.

Мало того, MIT недавно обнаружил, что глубоко внутри LLM возникла симуляция реальности, и их понимание языка вышло далеко за рамки простой имитации!

Адрес статьи: https://arxiv.org/abs/2305.11169.

В частности, два ученых из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) обнаружили, что:

Несмотря на то, что LLM обучен изучать язык программирования, используя только цель «предсказания следующего токена», которая, по-видимому, включает только чистую статистическую вероятность, модель все равно может изучить формальную семантику программы.

Это говорит о том, что языковые модели могут развивать собственное понимание реальности как способ улучшить свои генеративные способности.

Таким образом, LLM однажды сможет понимать язык на более глубоком уровне, чем сегодня.

Эта статья была принята ICML 2024, а код, использованный в эксперименте, опубликован на GitHub.

Адрес склада: https://github.com/charlesjin/emergent-semantics

Без глаз не сможет ли LLM «видеть»?

Попросите GPT-4 понюхать залитый дождем кемпинг, и он вежливо откажется.

Тем не менее, он даст вам поэтическое описание: свежий землистый аромат и освежающий аромат дождя с оттенками сосны или мокрых листьев.

GPT-4 никогда не видел дождя и не имеет носа, но может имитировать текст, который существует в больших объемах обучающих данных.

Означает ли отсутствие пары глаз, что языковая модель никогда не сможет понять: «лев больше домашней кошки»?

Может ли LLM понимать реальный мир и различные абстрактные концепции? Или вы просто «повторяете» и полагаетесь исключительно на статистическую вероятность, чтобы предсказать следующий токен?

Принцип работы LLM до сих пор остается неразгаданной загадкой. Большие парни из круга ИИ время от времени затевают дебаты по этому вопросу.

ЛеКун твердо уверен, что интеллект LLM определенно переоценен! Его самое известное утверждение заключается в том, что «большая языковая модель не так хороша, как кошка дома».

«Кошки могут помнить, они могут понимать физический мир, они могут планировать сложные действия и в определенной степени могут рассуждать. Это на самом деле лучше, чем самые большие модели. Это означает, что у нас есть важные пробелы на концептуальном уровне для создания машин. как животные. Такие же умные, как люди».

Многие люди объясняют это чисто статистическим явлением. LLM просто «повторяет» и имитирует текст, который существует в большом объеме обучающего корпуса. Он не обладает таким же уровнем интеллекта или восприятия, как люди.

Но теперь исследования Массачусетского технологического института доказывают, что это не так!

В рамках LLM определенно есть понимание реального мира.

LLM разгадывает загадку Карела, что это значит

Чтобы раскрыть эту тайну, исследователи из MIT CSAIL разработали набор небольших головоломок Карела.

Кратко представьте, в чем заключается загадка Карела.

Это включает в себя использование инструкций модели для управления действиями робота в моделируемой среде.

Спецификация грамматики Карела

Затем они обучают LLM изучению конкретного решения, не демонстрируя, как оно работает.

Наконец, автор предлагает метод машинного обучения под названием «зондирование», чтобы получить более глубокое понимание «процесса мышления», когда модель генерирует новые решения.

Исследователь строит обучающие примеры, выбирая случайную эталонную программу, затем выбирает 5 случайных входных данных и выполняет программу для получения соответствующих 5 выходных данных. LM обучается прогнозированию следующего токена на корпусе примеров, состоящих из чередующихся входных и выходных данных, за которыми следует эталонная процедура. Во время тестирования исследователи предоставляют LM невидимые входные и выходные характеристики и используют жадное декодирование для прогнозирования программы.

После обучения более чем 1 миллиону случайных головоломок исследователи обнаружили, что модель спонтанно сформировала концепцию базовой моделируемой среды! Хотя во время обучения им не была предоставлена эта информация.

Этот результат не только бросает вызов нашему внутреннему впечатлению от LLM, но и ставит под сомнение наше понимание природы мыслительного процесса.

Какие виды информации необходимы в процессе изучения семантики?

В начале эксперимента случайные инструкции, сгенерированные моделью, было практически невозможно выполнить, но когда обучение было завершено, точность инструкций достигла 92,4%.

Джин, первый автор статьи, сказал: «Это очень волнующий момент, потому что мы думаем, что если языковая модель сможет выполнить задачу с такой точностью, мы также ожидаем, что она сможет понять смысл языка».

«Это дало нам отправную точку для изучения того, действительно ли LLM может понимать текст, и теперь мы видим, что модель способна на гораздо большее, чем просто слепое соединение слов».

Откройте мозг LLM

Во время этого эксперимента Джин воочию стал свидетелем этого прогресса.

Почему LLM считает, что эти инструкции означают именно это?

Он обнаружил, что LLM разработала собственную внутреннюю симуляцию того, как робот будет двигаться в ответ на каждую команду.

По мере того, как способность модели решать сложные проблемы становится все выше и выше, эти концепции становятся все более точными, что показывает, что LM начинает понимать инструкции.

Вскоре LLM последовательно правильно складывал детали в рабочие инструкции.

Семантическое содержание, измеренное с помощью различных классификаторов зондов (зеленый)

мыслящий зонд

Главный вклад в вышеупомянутые открытия — «мыслящий зонд».

Это эффективный инструмент вмешательства в процесс мышления LLM. В документе это называется «зондированием».

В частности, состояние LM содержит чисто синтаксические записи входных и сгенерированных программ, но зонд, похоже, способен научиться понимать абстрактные интерпретации.

В реальном эксперименте автор сначала создал набор данных для отслеживания состояния LLM, а затем использовал стандартные методы обучения с учителем для обучения небольшой модели в качестве зонда, такой как линейный классификатор или двухслойный MLP.

Семантическое содержание текущего и двух следующих абстрактных состояний во второй половине обучения (1-слойный MLP)

Однако важным вопросом является то, что исследование должно быть отделено от реального мыслительного процесса модели или генерируемых инструкций.

Хотя единственная цель зонда — «проникнуть в мозг LLM», что, если он еще и думает за модель?

Что исследователям необходимо гарантировать, так это то, что LLM может понимать инструкции независимо от зонда, а не заставлять зонд делать выводы о действиях робота на основе понимания синтаксиса LLM.

Представьте себе, что есть набор данных, кодирующих мыслительный процесс LLM, где роль зонда аналогична роли судебно-медицинского эксперта.

Мы дали эту кучу данных аналитику и сказали ему: «Это движение робота. Попробуйте узнать, как робот движется в этой куче данных». Аналитик сказал, что знает робота в этой куче данных». . Что происходит.

Но что, если эта куча данных просто закодирует необработанные инструкции, а аналитики придумали какой-нибудь хитрый способ извлечь инструкции и действовать в соответствии с ними?

В данном случае LLM вообще не понимает смысла этих инструкций.

Для этого исследователи сделали гениальную конструкцию: создали для модели «странный мир».

В этом мире значение команды зонда меняется на противоположное, например, «вверх» на самом деле означает «вниз».

Например, exec(turnRight,·) в исходной семантике заставит робота повернуться на 90 градусов по часовой стрелке, а exec adversarial(turnRight,·) вытолкнет робота в пространство.

Это гарантирует, что зонд не является «оппортунистическим» и напрямую изучает и понимает, как LLM кодирует инструкции.

Один автор Джин представил это так:

Если зонд должен передавать инструкции по местоположению робота, он должен быть в равной степени способен переводить инструкции со сверхъестественным смыслом.

Но если зонд на самом деле ищет кодировку исходных движений робота в мыслительном процессе языковой модели, то ему будет сложно извлечь странные движения робота из исходных мыслительных процессов.

Было обнаружено, что зонд имел ошибки перевода и не мог интерпретировать языковые модели с различным значением инструкций.

Это означает, что исходная семантика встроена в языковую модель, что указывает на то, что LLM способен понимать необходимые инструкции независимо от исходного классификатора обнаружения.

В первой половине описывается, как эти два условия привели к высокому смысловому содержанию измерений до вмешательства. Нижняя часть показывает, почему две гипотезы разделены: если представление LM содержит только грамматику (внизу слева), то должна быть возможность обучить зонд alt научиться интерпретировать записи с точки зрения программы альтернативного состояния (жирный красный результат). ; однако, если представление LM содержит кодирование исходного абстрактного состояния (внизу справа), то обнаружение alt требует извлечения альтернативного состояния «prog» из исходного состояния, что приводит к снижению семантического содержания (жирный серый результат)

LLM понимает язык, как ребенок

Интересно, что Джин обнаружил, что понимание языка у LLM развивается поэтапно, так же, как дети изучают язык в несколько этапов.

Поначалу он будет лепетать, как ребенок, его слова будут повторяться, и большинство из них будет трудно понять.

Затем LLM начинает подбирать грамматические или языковые правила, чтобы генерировать инструкции, которые выглядят как реальные решения, но они по-прежнему не работают.

Однако инструкции LLM будут постепенно улучшаться.

Как только модель обретает смысл, она начинает генерировать инструкции для правильной реализации требуемой спецификации, подобно тому, как ребенок строит предложения.

Результаты показаны на рисунке 2. Видно, что понимание языка у LLM примерно разделено на три этапа, как и у детей, изучающих язык.

Болтание (серая часть): занимает около 50% всего тренировочного процесса, генерирует повторяющиеся программы, точность стабильна на уровне около 10%.
Приобретение синтаксиса (оранжевая часть): от 50% до 75% процесса обучения, разнообразие генерируемых результатов резко увеличивается, синтаксические атрибуты значительно изменяются, и модель начинает моделировать токен программы, но точность генерации улучшение не очевидно
Приобретение семантики (желтая часть): на 75% процесс обучения заканчивается, разнообразие практически не меняется, но точность генерации значительно возрастает, что указывает на появление семантического понимания.

В эксперименте для сравнения использовались три различные архитектуры зондов: линейный классификатор, однослойный MLP и двухслойный MLP.

При прогнозировании на 2 шага вперед абсолютное значение точности прогнозирования двухуровневого MLP выше, чем базовая модель, предсказанная с текущим состоянием. Можно предположить, что до того, как LLM сгенерирует инструкции, его мыслительный процесс и «намерение» создания инструкций сохраняются внутри модели.

LLM = модель мира?

В этом исследовании объясняется, как LLM думает о значении каждой инструкции в обучающих данных и моделирует реакцию робота на инструкции в его внутреннем состоянии.

Все это указывает на ключевой вопрос в текущих исследованиях ИИ: являются ли удивительные способности студентов магистратуры просто результатом крупномасштабных статистических корреляций, или они приводят к значимому пониманию их реальности?

Исследования показывают, что LLM разработала внутреннюю модель, имитирующую реальность, хотя ее никогда не обучали разработке этой модели.

Более того, языковые модели могут еще больше углубить понимание языка.

Однако одна статья не может полностью ответить на этот вопрос.

Автор Джин также признал, что это исследование имеет некоторые ограничения: они использовали только очень простой язык программирования Karel и очень простую архитектуру модели зонда.

Будущая работа будет сосредоточена на более общих экспериментальных условиях, а также в полной мере будет использовать понимание «мыслительного процесса» LLM для улучшения методов обучения.

Ринард, другой автор этой статьи, сказал: «Интересный открытый вопрос заключается в том, использует ли LLM при решении задач навигации роботов модель внутренней реальности для рассуждений о реальности?»

Хотя результаты, представленные в статье, могут подтвердить этот вывод, эксперимент не был предназначен для ответа на этот вопрос.

Элли Павлик, доцент кафедры компьютерных наук и лингвистики Университета Брауна, высоко оценила исследование.

Она сказала, что понимание того, как работает LLM, позволяет нам иметь более разумные ожидания относительно присущих этой технологии возможностей и ограничений. Данное исследование исследует именно этот вопрос в контролируемой среде.

Компьютерный код, как и естественный язык, имеет как синтаксис, так и семантику, но в отличие от естественного языка семантика кода более интуитивна и может напрямую контролироваться в соответствии с экспериментальными потребностями.

«Экспериментальный дизайн элегантен, а результаты многообещающи, что позволяет предположить, что, возможно, LLM может обеспечить более глубокое понимание «значения» языка».

Представление автора

Первый автор этой статьи, Чарльз Джин, является кандидатом наук в отделе EECS Массачусетского технологического института и лаборатории CSAIL. Его руководитель, Мартин Ринард, является еще одним автором этой статьи. Его исследования сосредоточены на надежном машинном обучении и синтезе программ.

Джин окончил Йельский университет со степенью бакалавра и магистра в области компьютерных наук и математики. Когда-то он работал аналитиком в Weiss Asset Management, а во время работы над докторской диссертацией работал стажером-исследователем в Google Brain.

Ссылки:

https://the-decoder.com/training-language-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

новости

Введение

Моя контактная информация