Могут ли две маленькие модели проверить друг друга и напрямую сравнить с большой моделью? Microsoft rStar даже не использует CoT

Могут ли две маленькие модели проверить друг друга и напрямую сравнить с большой моделью? RStar от Microsoft даже не использует CoT

2024-08-16

Отчет о сердце машины

Редактор: Панда

Общайтесь друг с другом, чтобы маленькие модели могли решать большие проблемы.

LLM, как известно, является мощным инструментом, но недостаточно мощным для выполнения сложных рассуждений.

Например, в наборе данных GSM8K Мистраль-7Б может достичь точности только 36,5% даже с использованием таких технологий, как цепочка мыслей (CoT). Хотя точная настройка действительно может эффективно улучшить способности к рассуждению, большая часть LLM опирается на данные точной настройки, которые были очищены с помощью более мощных моделей, таких как GPT-4, или, возможно, даже были синтезированы этими мощными моделями.

В то же время исследователи также активно разрабатывают вспомогательный, но более сложный метод: использование лучшего преподавателя LLM для улучшения способностей к рассуждению.

Чтобы улучшить способность к рассуждению без лучшей модели, многообещающей парадигмой является использование знаний в самой LLM. Например, метод под названием RAP использует решение для самоисследования, то есть итеративно улучшает эффективность рассуждений LLM за счет самовознаграждающей обратной связи. К сожалению, исследования показывают, что у этой парадигмы есть две фундаментальные проблемы.

Во-первых, LLM часто не может эффективно исследовать пространство решений при выполнении вывода. Этот самоисследовательский подход часто застревает в пространстве решений из-за некачественных шагов рассуждения, даже после нескольких попыток.

Во-вторых, даже если самоисследование выявляет высококачественные шаги вывода, небольшой версии большой языковой модели (SLM) сложно определить, какие шаги вывода имеют более высокое качество, и определить, верен ли окончательный ответ, что делает его более качественным. трудно эффективно направлять самоисследование. Исследования показывают, что управляемое самоисследование, основанное на базовых регулярных вознаграждениях, дает результаты не лучшие, чем случайное угадывание.

Еще более неприятно то, что небольшие версии больших языковых моделей (SLM) более подвержены двум вышеупомянутым проблемам, поскольку они менее эффективны. Например, GPT-4 может улучшить выходные результаты за счет самооптимизации, но SLM сделать это сложно и может даже привести к снижению качества выходных результатов. Это серьезно затруднит популяризацию и применение моделей нейронного языка.

В ответ на эти проблемы исследовательская группа из Microsoft Research Asia и Гарвардского университета предложила «Взаимное рассуждение в самостоятельной игре», или сокращенно rStar. Проще говоря, этот метод подобен предложению двум посредственным студентам проверить ответы друг друга на экзаменационные работы и в конечном итоге улучшить свои баллы до такой степени, что они смогут даже конкурировать с лучшими учеными. Команда утверждает, что rStar «может улучшить возможности SLM по выводам без тонкой настройки или улучшения моделей».

Название статьи: Взаимное рассуждение делает небольшие LLM более сильными в решении проблем
Адрес статьи: https://arxiv.org/pdf/2408.06195.
Адрес кода: https://github.com/zhentingqi/rStar (еще не опубликован)

метод

Чтобы решить вышеуказанные проблемы, rStar делит процесс рассуждения на две части: генерацию решения и взаимную проверку, как показано на рисунке 2.

Решая первую задачу, команда представила набор разнообразных логических действий, подобных человеческим, которые тщательно исследуют разнообразное пространство задач рассуждения.

Для решения второй проблемы они разработали функцию вознаграждения специально для УУЗР, которая может оценивать промежуточные шаги, избегая, таким образом, полагаться на часто ненадежную самооценку.

Кроме того, команда также использовала другой SLM в качестве дискриминатора для улучшения процесса MCTS, взаимно проверяя правильность каждой траектории с помощью дискриминатора SLM.

Используйте MCTS Rollout для самостоятельного создания траекторий вывода.

Богатая коллекция человеческих рассуждений. Ядро генерации MCTS лежит в пространстве действий, которое определяет объем исследования дерева. Большинство методов на основе MCTS используют один тип действия при построении дерева. Например, действие в RAP — задать следующий подвопрос, а действие в AlphaMath и MindStar — сгенерировать следующий шаг рассуждения. Однако использование одного типа действий может легко привести к плохому исследованию космоса.

Чтобы решить эту проблему, команда обратилась к тому, как люди рассуждают. Разные люди решают проблемы по-разному: одни разбивают проблему на подзадачи, другие решают ее напрямую, а третьи перефразируют проблему с другой точки зрения. Кроме того, люди также будут корректировать свои методы в соответствии с текущим состоянием и выбирать различные действия в соответствии с потребностями.

Вдохновленная процессом человеческого рассуждения, команда создала более богатый набор данных, содержащий 5 типов действий, чтобы максимизировать потенциал УУЗР для правильного решения сложных задач рассуждения.

Действие 1: Предложите ход размышления. Для данной проблемы это действие заставит LLM генерировать следующий шаг идей на основе существующих шагов рассуждения.

Действие 2: Предложите оставшиеся мыслительные шаги. Это действие, как и стандартный CoT, позволяет «быстро думать» и решать простые проблемы всего за несколько шагов. Учитывая сгенерированные шаги вывода, это позволит LLM напрямую генерировать оставшиеся шаги до тех пор, пока не будет получен окончательный ответ.

Действие 3: Предложите следующий подвопрос и ответ на него.

Действие 4: Ответьте на этот подвопрос еще раз. Учитывая, что действие 3 может не дать правильный ответ на соответствующий подвопрос, роль этого действия состоит в том, чтобы ответить на него еще раз.

Действие 5: Переформулируйте проблему/подпроблему. Этот новый шаг призван перефразировать проблему в более простой форме. В частности, цель здесь состоит в том, чтобы LLM четко перечислил все условия в постановке задачи.

Вышеупомянутые пять действий определяют весьма разнообразное пространство действий {A1, A2, A3, A4, A5}.

На каждом шаге i MCTS выбирает действие a_i из этого пространства. Затем на основе текущего состояния (т. е. ранее сгенерированной траектории x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1}) используйте это действие a_i, чтобы позволить LLM сгенерировать следующий шаг вывода s_i. Обратите внимание, что некоторые действия необходимо выполнять по порядку. На рисунке 3 приведен пример.

Как показано в таблице 1, каждое действие играет важную роль в повышении точности окончательного вывода.

функция вознаграждения

Еще одним ключевым компонентом MCTS является функция вознаграждения, которая оценивает ценность каждого действия и предоставляет инструкции по расширению дерева. Для SLM команда разработала простую, но эффективную функцию вознаграждения. Их подход, вдохновленный AlphaGo, оценивает каждый промежуточный узел на основе его вклада в окончательный правильный ответ. Таким образом, действия, которые часто приводят к правильным ответам, будут получать более высокие награды, и они с большей вероятностью будут выбраны в будущих расширениях дерева MCTS.

Здесь значение вознаграждения узла s, сгенерированное после выполнения действия a, определяется как Q (s, a). Первоначально всем неисследованным узлам присваивается Q (s_i, a_i) = 0, что обеспечивает случайное расширение дерева. При достижении первого конечного узла n_d оценка вознаграждения Q (s_d, a_d) рассчитывается на основе того, получил ли он правильный ответ.

Затем эта оценка передается обратному распространению на каждый промежуточный узел по траектории t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. В частности, для каждого s_i его значение Q обновляется следующим образом: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Чтобы вычислить Q(s_d, a_d) для конечного узла, используемое здесь значение вознаграждения — это вероятность (достоверность) самосогласованного большинства голосов.

Используйте MCTS Rollout для создания решений

Ниже описывается способ, которым MCTS генерирует возможные траектории вывода. Начиная с начального корневого узла s_0, выполняются различные поиски, включая выбор, расширение, моделирование и обратное распространение ошибки. В частности, при моделировании используется стратегия развертывания по умолчанию. Чтобы получить более точную оценку вознаграждения, команда выполнит несколько развертываний. Чтобы сбалансировать исследование и эксплуатацию, они используют хорошо известный UCT (верхнюю доверительную границу дерева) для выбора каждого узла. Математическая форма этого процесса выбора такова:

Где N (s, a) — количество посещений узла s на предыдущей итерации, а N_parent (s) — количество посещений родительского узла s. Q(s,a) — предполагаемое значение вознаграждения, которое обновляется во время обратного распространения ошибки. c — константа, которая уравновешивает исследование и эксплуатацию.

Как только поиск достигает конечного узла (который может быть конечным состоянием или может достигать заранее определенной максимальной глубины дерева d), можно получить траекторию от корня к конечному узлу. Все траектории, полученные в ходе итерации развертывания, собираются как возможные решения. Далее их необходимо проверить.

Использование взаимности для выбора траекторий вывода

На основе всех собранных траекторий команда предложила использовать логический вывод для выбора ответов.

Достижение согласованности вывода с помощью дискриминатора SLM

Как показано на рисунке 2, в дополнение к целевому SLM, команда также представила дискриминатор SLM, роль которого заключается в обеспечении внешней неконтролируемой обратной связи для каждой траектории-кандидата.

В частности, для t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d замаскируйте шаги вывода, начиная с некоторого случайно выбранного шага i. Затем предыдущая траектория вывода t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} предоставляется дискриминатору SLM в качестве подсказки, позволяющей ему выполнить оставшиеся шаги. Поскольку предыдущие шаги рассуждения i-1 используются в качестве подсказок, сложность снижается, и дискриминатор SLM с большей вероятностью даст правильный ответ.

На рисунке 4 показано, соответствует ли ответ завершения дискриминатора SLM исходной траектории t. Если они согласованы, t считается проверенной траекторией, которую можно окончательно выбрать.

Конечная траектория выбирается целевой SLM. После применения когерентности вывода ко всем траекториям-кандидатам вернитесь к целевому SLM и позвольте ему выбрать окончательную траекторию из проверенных траекторий. Чтобы вычислить окончательный балл для каждой траектории, команда умножила свою награду на показатель доверия конечного узла, полученный с помощью Rollout. В качестве решения выбирается траектория с наибольшим итоговым баллом.

эксперимент

Экспериментальная установка

rStar подходит для различных задач LLM и логических выводов. Команда оценила 5 SLM: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Протестировано 5 задач на рассуждение, включая 4 математические задачи (GSM8K, GSM-Hard, MATH, SVAMP) и 1 задачу на здравый смысл (StrategyQA).

Пожалуйста, посетите оригинальную статью для получения подробной информации об эксперименте.

Основные результаты

Команда сначала оценила эффективность rStar по общим критериям. В Таблице 2 сравнивается точность rStar и других современных методов на различных наборах данных SLM и вывода. Чтобы продемонстрировать эффективность нового генератора, команда также предоставляет точность rStar (генератор @maj), который не использует дискриминатор и использует только большинство голосов для проверки ответа.

Команда отметила три ключевых результата:

1. УУЗР на базе rStar обладает более мощными возможностями решения проблем. Например, в наборе данных GSM8K точность LLaMA2-7B с использованием CoT с несколькими выборками составляет всего 12,51%. Но с помощью rStar его точность возросла до 63,91%, что близко к точности, полученной при точной настройке, как показано на рисунке 1. Аналогично, производительность Mistral с использованием rStar даже на 4,18% выше, чем у доработанной версии MetaMath. Такое улучшение показывает, что УУЗР само по себе уже обладает сильными способностями к рассуждению, но ему необходимо руководство, чтобы генерировать и выбирать правильные ответы.

2. rStar может стабильно повышать точность вывода различных SLM, оцениваемых для разных задач, до лучшего на данный момент уровня. Для сравнения, другие методы сравнения не могут стабильно достигать хороших результатов по всем четырем тестам. Например, хотя SC (самосогласованность) хорошо справляется с тремя математическими задачами, он не может эффективно решить задачу логического рассуждения StrategyQA.

3. Даже без недавно предложенного дискриминатора для проверки траекторий вывода, недавно предложенный генератор MCTS по-прежнему хорошо работает в повышении точности вывода SLM. Например, в наборе данных GSM8K точность rStar (генератор @maj) на 2,88–16,39 % выше, чем RAP, на 10,60–38,37 % выше, чем ToT, и на 1,69–7,34 % выше, чем SC.

Результаты по сложным наборам математических данных

Команда также оценила rStar на более сложном наборе математических данных. Для этой цели они выбрали наборы данных GSM-Hard и MATH. Следуя традиции подобных исследований, они использовали MATH-500, подмножество репрезентативных задач из набора данных MATH. Это сделано для повышения скорости оценки. Как показано в таблицах 2 и 3, rStar может значительно повысить точность вывода SLM на этих сложных наборах математических данных.

абляционное исследование

Эффективность различных внедрений

rStar использует стратегию развертывания для расширения дерева MCTS. Большее количество развертываний создаст больше возможных траекторий решения, но также увеличит стоимость вывода. На рисунке 5 сравнивается точность SC, RAP и rStar при использовании различных развертываний на GSM8K.

Здесь сделаны два ключевых наблюдения:

1. Даже при наличии всего двух развертываний rStar может значительно повысить точность вывода SLM, что показывает его эффективность;

2. Большее количество развертываний выгодно как rStar, так и SC, в то время как RAP имеет тенденцию к насыщению или даже снижению после 4 развертываний. Одна из причин заключается в том, что однотипное пространство действий RAP ограничит эффективность разведки MCTS.

Эффективность генератора MCTS

Команда сравнила производительность генератора MCTS с тремя другими генераторами. Как показано в Таблице 4, недавно предложенный генератор MCTS значительно превосходит другие генераторы. Кроме того, продемонстрирована эффективность функций вознаграждения, настроенных на SLM, поскольку самооценка снижает точность новых генераторов.

Эффективность дискриминатора

Команда провела два оценочных эксперимента.

В первом эксперименте дискриминационный метод сравнивается с методами голосования большинством и самопроверки. Результаты показаны в Таблице 5 (слева). Видно, что преимущества метода дискриминации весьма значительны.

Второй эксперимент заключается в изучении влияния различных моделей дискриминаторов. Результаты показаны в таблице 5 (справа). Видно, что выбор различных моделей дискриминатора обычно не влияет на эффект метода вывода когерентности для проверки ответа. Стоит отметить, что даже при использовании мощного GPT-4 в качестве дискриминатора производительность улучшается лишь незначительно (с 91,13% до 92,57%). Это показывает, что метод вывода когерентности может эффективно использовать SLM для проверки ответов.

новости

Могут ли две маленькие модели проверить друг друга и напрямую сравнить с большой моделью? RStar от Microsoft даже не использует CoT

Введение

Моя контактная информация