Новости

Выступление ICML2024 стало вирусным! Мета Чжу Цзэюань раскрывает внутренний мир больших моделей, отличающийся от человеческого мышления!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Как модель большого языка (LLM) решает математические задачи? Это благодаря шаблонной памяти или на самом деле учатся рассуждать? Каков процесс ментальной арифметики для модели? Каким навыкам рассуждения можно научиться? То же, что люди, или за пределами людей? Поможет ли изучение только одного типа математических задач развитию общего интеллекта? Почему LLM допускают ошибки в рассуждениях? Какая степень LLM необходима для рассуждений?



Адрес статьи: https://arxiv.org/abs/2407.20311.

Недавно команда из четырех человек из Meta FAIR, CMU и MBZUAI, в том числе Е Тянь, Сюй Цзычэн, Ли Юаньчжи и Чжу Цзэюань, выпустила последнюю статью arXiv «Физика языковой модели, часть 2.1: Математика в начальной школе и скрытые процессы рассуждения». «Используя контролируемые эксперименты, чтобы ответить на умные вопросы по вышеуказанным вопросам. Пользователь Твиттера @xlr8harder прокомментировал: «Этот результат раз и навсегда положит конец спорам о том, обладает ли LLM способностями к рассуждению или это просто случайный попугай».

Примечание редактора: всем участникам серии «Физика языковых моделей» было предложено выступить с двухчасовым специальным докладом на Международной конференции по машинному обучению ICML 2024 22 июля. Реакция была восторженной, и сообщается, что на сцена. Представляю вам Часть 2.1 этой серии.



Рисунок 1

Подробное объяснение статьи

Прежде всего, согласно правилам этой серии, автор считает, что не следует угадывать образ мышления, разговаривая с большими моделями, такими как GPT-4. Это похоже на поведение животных, которое возможно, но недостаточно строго. научно раскрыть внутреннее мышление процесса GPT-4.

Кроме того, с точки зрения данных, только получив полный доступ к данным предварительной подготовки модели, мы можем узнать, какие вопросы рассматривала модель, а какие были изучены посредством вывода. Даже если модель набирает высокие баллы по GSM8k, эталонному набору из 8000 вопросов по математике для начальной школы, трудно сказать, видела ли она вариации этих вопросов (например, вариации на разных языках или переписывания GPT-4).

С этой целью автор создал iGSM, синтетический набор вопросов для мышления, который имитирует уровень математики в начальной школе, и позволил предварительно обучить модель iGSM с нуля, чтобы контролировать типы вопросов, которым подвергается модель. Стоит отметить, что iGSM не содержит информации здравого смысла, только сложение, вычитание и умножение в пределах диапазона mod 23, а все вычисления выполняются шаг за шагом с использованием CoT. С помощью iGSM можно проводить контролируемые эксперименты, в которых конкретно изучаются возможности вывода модели, игнорируя при этом другие факторы (например, арифметику больших целых чисел). На рисунке 2 показан простой пример.



фигура 2

Используя этот набор данных, автор сначала протестировал производительность GPT2 (версия RoPE). Используя op для представления количества шагов математических операций, необходимых для решения задачи, автор обнаружил, что при обучении на вопросах с op≤21 модель может не только достичь точности 99%, но и добиться лучших результатов на более сложных вопросах (таких как как op=32), сохраняя точность 83% (см. рисунок 3). Это показывает, что модель освоила некоторые навыки рассуждения, ведь она никогда не видела вопросов с op>21. (Кстати, GPT-4o может обрабатывать в этом наборе данных только вопросы с op=10. Все, что выходит за рамки этой сложности, похоже на слепое угадывание. Мы обсудим этот вопрос в конце статьи.)

Итак, какие навыки рассуждения приобрела модель? Существует как минимум два подхода к решению математических задач iGSM. Один из них — это то, что автор называет «Уровень 0 Рассуждение ", то есть "насильственный расчет можно просчитать". Поскольку переменные в вопросе могут иметь сложные зависимости, некоторые можно вычислить напрямую, а другие необходимо вычислить сначала. Например, если у Сяо Чжана в 3 раза больше фруктов, чем у Сяо Вана, то он должен сначала подсчитать, сколько яблок и груш. У Сяо Вана есть. И только подведя итоги, мы можем начать подсчитывать количество фруктов для Сяо Чжана. «Рассуждение уровня 0» заключается в том, чтобы перебрать все переменные как можно больше, каждый раз случайным образом находить вычисляемую переменную, вычислять результат и продолжать работу.

Этому соответствует "Уровень 1 Рассуждение «: Используя топологическую сортировку, начните с задачи и действуйте в обратном направлении, чтобы определить, какие переменные необходимо вычислить, а затем начните с конечных узлов и выполните вычисления вверх, чтобы найти «кратчайший ответ». При решении общих математических задач обычно используются рассуждения уровня 1 и не вычисляются «ненужные переменные». Например, у Сяо Чжана в три раза больше фруктов, чем у Сяо Вана. Если вы спросите Сяо Чжана, сколько у него фруктов, то количество яблок у Сяо Ли будет ненужной переменной, тогда как количество яблок и груш у Сяо Вана будет необходимым.

Как показано на рисунке 3, автор обнаружил, что GPT-2 может обучаться рассуждению уровня 1 и почти каждый раз давать кратчайший ответ. Это очень просто! Потому что прежде чем модель сгенерирует первое предложение, вся топологическая сортировка должна быть произведена в ее уме — иначе как бы она узнала, какие переменные не нужны? Если модель с самого начала генерирует «У Сяо Ли 7 яблок», то вернуться назад невозможно и кратчайший ответ не может быть получен.



изображение 3

Итак, как же модель учится «рассуждению уровня 1»? С этой целью автор провел зондирующее исследование внутренних параметров модели (см. рисунок 4). Заключение показывает (подробнее о методе пробы см. в статье), что прежде чем модель сгенерирует первое предложение, она уже определила, какая переменная A является «необходимой» посредством ментальной арифметики (nece (A)=True). При этом после произнесения каждого предложения модель также мысленно вычисляет все последующие «вычислимые» переменные A (cannext(A)=True). Таким образом, модели необходимо только непрерывно выполнять логические операции И для nece и cannext, а полный процесс вычислений можно выполнить шаг за шагом, начиная с конечных узлов.

Примечательно, что эти сложные способности к ментальной арифметике не проявились в обучающем наборе. Модель подвергалась воздействию только данных iGSM и видела только «языковую» часть (вопросы и ответы), но она самостоятельно изучила человеческий мыслительный процесс (мысленный процесс) и пришла к оптимальному решению!Другими словами, это исследование опровергает наш отчет недельной давности в статье «Язык ≠ Мышление, большие модели не могут научиться рассуждению: статья в журнале Nature взорвала сообщество ИИ» и доказала это с помощью научных методов.Большие модели действительно могут научиться мыслить посредством языка.

Еще более удивительно то, что модель учится большему. На рисунке 4 автор также обнаружил, что модель мысленно просчитывает много информации, бесполезной для решения задачи. Например, после того, как взаимосвязь переменных была только что описана, или даже до того, как был задан вопрос, модель уже знает, существует ли рекурсивная зависимость между любыми двумя переменными A и B — даже если эти переменные не имеют отношения к решению проблемы. Что касается людей, мы обычно начинаем с вопроса и работаем в обратном направлении, игнорируя ненужные переменные, но языковая модель, такая как GPT-2, прочесывает весь граф отношений, чтобы ответить на любые вопросы, которые могут возникнуть в будущем. Автор называет эту способность «Уровень 2 Рассуждение」。

Хотя рассуждение 2-го уровня не требуется для решения проблем, это, безусловно, более общий навык. Модель использует преимущества параллельных возможностей для выполнения большого объема причинно-следственной сортировки информации. Эту способность языковая модель осваивает, когда она учится решать проблемы. Никто (данные) не учил ее этому. Автор предполагает, что это может быть потенциальным источником термина «универсальный» в искусственном общем интеллекте (AGI), то есть языковые модели могут изучать более общие способности, выходящие за рамки навыков, которым обучает набор данных.



Рисунок 4

Далее авторы рассмотрели, почему модель допустила ошибку. Подводя итог, можно сказать, что в наборе данных iGSM модель почти допускает только два типа ошибок: одна — вычисление ненужных переменных, а другая — вычисление переменных, которые в данный момент не поддаются расчету, как показано на рисунке 5.

Что касается первого, автор обнаружил, что если модель допускает мысленную ошибку вычислений перед генерированием ответа и ошибочно полагает, что определенная переменная A является «необходимой» (nece (A) = True), то модель, скорее всего, принудительно вычислит A. при генерации ответа Это дает не кратчайшее решение. Этот вывод очень интересен и предполагает, что многие ошибки носят систематический характер и что модель убеждена в том, что она совершит ошибку (посредством зондирования) еще до того, как откроет рот, прежде чем будет сгенерирован первый токен. Этот тип ошибок не имеет ничего общего со случайностью в процессе генерации модели или поиска луча.

Что касается последнего, автор также приписывает его ошибкам в ментальной арифметике и будет использовать всю последующую статью Части 2.2, чтобы специально улучшить способности модели к ментальной арифметике, чтобы в конечном итоге повысить точность решения задач. Документ еще не опубликован, и мы продолжим обращать на него внимание и сообщать о нем в публичном доступе.



Рисунок 5

Следующий вывод заключается в том, что автор опроверг подчеркнутое в законе масштабирования больших моделей «только большое», то есть производительность модели связана только с количеством параметров и не имеет ничего общего с шириной или глубина. Эта точка зрения была впервые предложена в статье OpenAI «Закон масштабирования» и сопровождалась почти всеми последующими исследованиями.

Автор провел контролируемый эксперимент с набором данных iGSM, как показано на рисунке 6. Сравнивая меньшие и более глубокие модели с более крупными и более широкими моделями, мы обнаружили, что для решения математических задач в iGSM:Глубина модели явно важнее ширины. . Например, модель с 20 слоями и 9 головками работает намного лучше, чем модель с 4 слоями и 30 головками, хотя последняя имеет вдвое больше параметров.

Идя дальше, автор обнаружилЗависимость от глубины возникает из-за сложности ментальной арифметики модели. . Путем пробных исследований на разной глубине модели автор обнаружил, что для тех переменных A, которые далеки от задачи, ментальная арифметика nece (A) часто требует большего количества слоев. В частности, если расстояние между переменной A и переменной задачи равно t, то необходимо t шагов ментальной арифметики, чтобы узнать, что nece (A)=True. Чем больше t, тем больше слоев требуется модели, как показано на рисунке 6.

Автор подчеркивает, что зависимость модели от глубины не может быть компенсирована цепочкой мыслей (ЦП). Фактически при решении математических задач в iGSM максимально использовался CoT, то есть все расчеты разбиты на этапы. Несмотря на это, модели по-прежнему необходимо выполнять ментальную арифметику, чтобы спланировать, каким должен быть первый шаг ЦТ, и этот процесс ментальной арифметики все равно может потребовать нескольких шагов. Это объясняет зависимость модели от глубины.



Рисунок 6

Подводя итог, в отличие от более чем 99% статей, изучающих поведенческий процесс LLM, автор этой статьи использует новый подход и раскрывает умственный процесс LLM при решении математических задач, что дает новое понимание интеллекта LLM. перспектива.

В конце статьи автор указывает, что даже GPT-4 может выполнять только до 10 шагов рассуждения над набором данных iGSM. Это показывает, что даже самые мощные современные модели, которые используют предположительно все данные Интернета, все еще не способны точно выполнить более 10 шагов вывода. Это означает, что данные предварительной подготовки, используемые существующими большими моделями, все еще могут быть улучшены. Метод, описанный в этой статье, может стать новой возможностью создания искусственно синтезированных данных для улучшения способности модели рассуждать и сортировать информацию.