Новости

Обучение аксиомам позволяет LLM научиться причинно-следственным рассуждениям: модель с 67 миллионами параметров сопоставима с уровнем триллиона параметров GPT-4.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Отчет о сердце машины

Редактор: Панда

Покажите LLM причинно-следственную цепочку, и он сможет выучить аксиомы.

ИИ уже помогает математикам и ученым проводить исследования. Например, известный математик Теренс Тао неоднократно делился своим опытом исследований и исследований с помощью таких инструментов ИИ, как GPT. Чтобы ИИ мог конкурировать в этих областях, необходимы сильные и надежные возможности причинно-следственной связи.

Исследование, представленное в этой статье, показало, что модель Transformer, обученная на демонстрации аксиомы причинной транзитивности на небольших графах, может быть обобщена до аксиомы транзитивности на больших графах.

Другими словами, если Трансформатор научится выполнять простые причинно-следственные рассуждения, его можно будет использовать для более сложных причинно-следственных рассуждений. Система обучения аксиом, предложенная командой, представляет собой новую парадигму обучения причинно-следственным рассуждениям на основе пассивных данных, которую можно использовать для изучения произвольных аксиом, если демонстрации достаточно.

введение

Причинное рассуждение можно определить как набор процессов рассуждения, которые соответствуют заранее определенным аксиомам или правилам, конкретно касающимся причинности. Например, правила d-разделения (направленного разделения) и do-исчисления можно рассматривать как аксиомы, в то время как спецификации набора коллайдеров или наборов заднего двора можно рассматривать как правила, полученные из аксиом.

Обычно для причинно-следственного вывода используются данные, соответствующие переменным в системе. Аксиомы или правила могут быть интегрированы в модели машинного обучения в форме индуктивных смещений посредством регуляризации, архитектуры модели или выбора конкретных переменных.

«Причинная лестница» Джуди Перла определяет возможные типы причинных выводов на основе различий в типах доступных данных (данные наблюдений, данные вмешательства, контрфактические данные).

Поскольку аксиомы являются краеугольным камнем причинности, мы не можем не задаться вопросом, можем ли мы напрямую использовать модели машинного обучения для изучения аксиом. То есть, что, если способ изучения аксиом заключается не в изучении данных, полученных в результате какого-либо процесса генерации данных, а непосредственно в изучении символических демонстраций аксиом (и, таким образом, в изучении причинно-следственных рассуждений)?

По сравнению с причинно-следственными моделями для конкретных задач, построенными с использованием конкретных распределений данных, такая модель имеет преимущество: она может обеспечить причинно-следственную связь в различных последующих сценариях. Этот вопрос становится важным, поскольку языковые модели обретают способность изучать символические данные, выраженные на естественном языке.

Фактически, некоторые недавние исследования оценили, могут ли большие языковые модели (LLM) выполнять причинный вывод, создавая тесты, которые кодируют проблемы причинного вывода на естественном языке.

Исследовательская группа из Microsoft, Массачусетского технологического института и Индийского технологического института Хайдарабада (IIT Hyderabad) также сделала важный шаг в этом направлении: предложивМетоды обучения причинно-следственным рассуждениям посредством аксиоматического обучения



  • Название статьи: Обучение трансформеров причинному мышлению посредством аксиоматического обучения
  • Адрес статьи: https://arxiv.org/pdf/2407.07612.

Обучение аксиомам

Они предположили, что причинная аксиома может быть выражена в виде следующего символического кортежа ⟨предпосылка, гипотеза, результат». Среди них гипотеза относится к гипотезе, то есть причинное утверждение является предпосылкой, которая относится к любой соответствующей информации, используемой для определения того, является ли утверждение «истинным» результатом; Результатом может быть простое «да» или «нет».

Например, аксиома коллайдера из статьи «Могут ли большие языковые модели вывести причинно-следственную связь из корреляции» может быть выражена как: и вывод «да?».



На основе этого шаблона можно создать большое количество синтетических кортежей, изменяя имена переменных, номера переменных, порядок переменных и т. д.

Чтобы использовать Transformer для изучения причинных аксиом и реализации обучения аксиом, команда использовала следующие методы для построения наборов данных, функций потерь и встраивания позиций.

Аксиоматическое обучение: наборы данных, функции потерь и позиционная компиляция

данные обучения

На основе конкретной аксиомы «гипотеза» может быть сопоставлена ​​с соответствующим ярлыком (да или нет) на основе «предпосылки». Чтобы создать набор обучающих данных, команда перечисляет все возможные кортежи {(P, H, L)}_N при определенных настройках переменных X, Y, Z, A, где P — предпосылка, а H — гипотеза, L — метка. (Да или нет).

Учитывая предпосылку P, основанную на некоторой причинно-следственной диаграмме, если гипотеза P может быть получена с использованием определенной аксиомы (один или несколько раз), то метка L — это «Да», в противном случае — «Нет».

Например, предположим, что лежащий в основе реальный причинный граф системы имеет цепную топологию: X_1 → X_2 → X_3 →・・・→ X_n. Тогда возможная посылка: X_1 → X_2 ∧ X_2 → X_3, тогда предположим, что X_1 → Приведенные выше аксиомы можно использовать индуктивно много раз для создания более сложных обучающих кортежей.

Для настройки обучения синтетический набор данных D строится с использованием N экземпляров аксиомы, сгенерированных аксиомой транзитивности. Каждый экземпляр в D строится в виде (P_i, H_ij, L_ij), где n — количество узлов в каждой i-й посылке. P — это посылка, то есть выражение на естественном языке определенной причинной структуры (например, X вызывает Y, Y вызывает Z, за которым следует вопрос H (например, X является причиной Y?); или Нет). Эта форма эффективно охватывает все пары узлов для каждой уникальной цепи в данном причинном графе.



функция потерь

Учитывая набор данных, функция потерь определяется на основе основной метки истинности каждого кортежа, выражаемой следующим образом: Анализ показывает, что использование этой потери может дать многообещающие результаты по сравнению с предсказанием следующего токена.



кодирование положения

Помимо функций обучения и потерь, еще одним важным фактором является выбор кодирования позиции. Позиционное кодирование может предоставить ключевую информацию об абсолютном и относительном положении токена в последовательности.

В знаменитой статье «Внимание — это все, что вам нужно» предлагается стратегия кодирования абсолютной позиции, которая использует периодическую функцию (функцию синуса или косинуса) для инициализации этих кодов.

Кодирование абсолютной позиции обеспечивает детерминированные значения для всех позиций любой длины последовательности. Однако некоторые исследования показывают, что кодирование абсолютной позиции трудно справиться с задачей обобщения длины Transformer. В обучаемом варианте APE каждое внедрение позиции инициализируется случайным образом и обучается с использованием модели. Этот метод не справляется с последовательностями, которые длиннее, чем те, которые используются во время обучения, поскольку новые внедрения позиций все еще необучены и не инициализированы.

Интересно, что недавние результаты показывают, что удаление позиционных вложений из авторегрессионных моделей улучшает возможности обобщения длины модели и что механизма внимания во время авторегрессионного декодирования достаточно для кодирования позиционной информации. Команда использовала различные кодировки положения, чтобы понять их влияние на обобщение в причинных задачах, включая обучаемое кодирование положения (LPE), синусоидальное кодирование положения (SPE) и отсутствие кодирования положения (NoPE).

Чтобы улучшить способность модели к обобщению, команда также использовала возмущения данных, включая возмущения длины, имени узла, порядка цепочки и условий ветвления.

эксперимент

Снова возникает вопрос: если модель обучена с использованием этих данных, сможет ли она научиться применять аксиому к новым сценариям?

Чтобы ответить на этот вопрос, команда с нуля обучила модель Трансформера, используя символическую демонстрацию этой причинно независимой аксиомы.

Чтобы оценить эффективность обобщения, они обучались на простых причинно независимых цепочках аксиом размером 3–6 узлов, а затем тестировали несколько различных аспектов эффективности обобщения, включая производительность обобщения по длине (цепочки размером 7–15), обобщение имен (более длинные имена переменных), последовательное обобщение (цепи с перевернутыми ребрами или перетасованными узлами), структурное обобщение (графы с ветвями). На рисунке 1 показан способ оценки структурного обобщения Transformer.



В частности, они обучили модель на основе декодера с 67 миллионами параметров на основе архитектуры GPT-2. Модель имеет 12 слоев внимания, 8 голов внимания и 512 измерений внедрения. Они обучили модель с нуля на каждом наборе обучающих данных. Чтобы понять влияние внедрения позиции, они также изучили три параметра внедрения позиции: синусоидальное кодирование позиции (SPE), обучаемое кодирование позиции (LPE) и отсутствие кодирования позиции (NoPE).

Результаты показаны в таблице 1, на рисунке 3 и рисунке 4.



В таблице 1 представлена ​​точность различных моделей при оценке более крупных причинно-следственных цепочек, не наблюдаемых во время обучения. Видно, что производительность новой модели TS2 (NoPE) сравнима с производительностью GPT-4 со шкалой параметров в триллион.

На рисунке 3 показаны результаты оценки способности к обобщению причинных последовательностей с более длинными именами узлов (длиннее, чем в обучающем наборе) и влияние различных вложений позиций.



На рисунке 4 оценивается способность к обобщению более длинных невидимых причинных последовательностей.



Они обнаружили, что модели, обученные на простых цепочках, обобщаются для многократного применения аксиом в более крупных цепочках, но не могут быть обобщены на более сложные сценарии, такие как последовательное или структурное обобщение. Однако если модель обучена на смешанном наборе данных, состоящем из простых цепочек, а также цепочек со случайными обратными ребрами, модель хорошо обобщается на различные сценарии оценки.

Распространив результаты обобщения длины на задачи НЛП, они обнаружили важность позиционных вложений в обеспечении причинного обобщения по длине и другим измерениям. Их самая эффективная модель не имела позиционного кодирования, но они также обнаружили, что синусоидальное кодирование хорошо работает в некоторых ситуациях.

Этот метод обучения аксиом также можно обобщить для более сложной задачи, как показано на рисунке 5. То есть, основываясь на предпосылках, содержащих утверждения о статистической независимости, цель задачи состоит в том, чтобы отличить корреляцию от причинно-следственной связи. Решение этой задачи требует знания нескольких аксиом, в том числе d-разделения и марковских свойств.



Команда сгенерировала синтетические обучающие данные, используя тот же метод, что и выше, затем обучила модель и обнаружила, что Трансформатор, обученный на демонстрации задачи, содержащей 3-4 переменных, может научиться решать графовую задачу, содержащую 5 переменных. И в этой задаче точность этой модели выше, чем у более крупных ЛЛМ, таких как GPT-4 и Gemini Pro.



Команда заявила: «Наше исследование обеспечивает новую парадигму обучения моделей изучению причинно-следственных связей посредством символической демонстрации аксиом, которую мы называем аксиоматическим обучением. Процесс генерации данных и обучения этого метода универсален: до тех пор, пока аксиома может быть». выраженный в формате символьного кортежа, его можно изучить с помощью этого метода.