Посмертная работа команды OpenAI Super Alignment: две большие модели соревновались, и результат стал понятнее

Посмертная работа команды OpenAI Super Alignment: две большие модели играют в игру, и результат становится более понятным

2024-07-18

Отчет о сердце машины

Редакция «Машинное сердце»

Если ответ, который дает модель ИИ, вообще непонятен, осмелились бы вы его использовать?

Поскольку системы машинного обучения используются в более важных областях, становится все более важным продемонстрировать, почему мы можем доверять их результатам, а когда им не следует доверять.

Один из возможных способов завоевать доверие к выводам сложной системы — потребовать от системы интерпретировать свои выходные данные, которые могут быть прочитаны человеком или другой доверенной системой, то есть полностью понятны до такой степени, что любые возможные ошибки могут быть устранены. найденный. Например, чтобы укрепить доверие к судебной системе, мы требуем от судов предоставления четких и читаемых письменных заключений, объясняющих и поддерживающих их решения.

Для больших языковых моделей мы также можем применить аналогичный подход.

Однако при использовании этого подхода важно гарантировать, что языковая модель генерирует понятный текст, особенно при решении сложных задач, таких как математика и кодирование.

Как показано на рисунке ниже, вы просите ИИ написать алгоритм быстрой сортировки. ИИ пишет его быстро, и ответ очень краткий. Но если вы не умеете писать код, как вы можете судить, правильно ли написан ИИ?

OpenAI изучила эту проблему в недавней статье.

Название статьи: ИГРЫ-ПРОВЕРИФИКАТОРЫ УЛУЧШАЮТ РАЗБОРЧИВОСТЬ РЕЗУЛЬТАТОВ LLM

Ссылка на документ: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf.

Они обнаружили, что если большие языковые модели попросить сгенерировать ответы с целью «получить правильный ответ», ответы, которые они дают, могут быть трудными для понимания. Люди-оценщики в два раза чаще допускают ошибки при оценке этих ответов.

Поэтому их цель — обучить модели языка высокого уровня, чтобы они могли генерировать текст, который можно легко проверить более простыми моделями. Они обнаружили, что такой текст не только удобен для простых моделей, но и более удобен для чтения человеком.

Итак, как это достигается? Здесь также упоминается статья 2021 года «Учимся давать проверяемые ответы с помощью игр-проверяющих». В этой статье Джем Анил и др. предложили структуру теории игр под названием «Игры Доказывающего-Верификатора». Структура состоит из двух конкурирующих участников: сети доверенных проверяющих, пытающихся выбрать правильный ответ, и более мощной, но ненадежной сети проверяющих, пытающихся убедить проверяющих принять конкретный ответ, независимо от его правильности. Целью этой структуры является создание надежного протокола доказательства из игры.

OpenAI позаимствовала эту структуру в этом новом исследовании, позволив двум большим моделям (более сильная — доказывающая, а более слабая — проверяющая) играть друг против друга, пока они не достигнут баланса. На данный момент ответ, данный доказывающим, является одновременно читабельным и достаточно правильным.

OpenAI заявила, что, улучшая читаемость результатов модели, она может сделать применение искусственного интеллекта более эффективным и заслуживающим доверия, что полезно для различных областей, требующих точной коммуникации.

Стоит отметить, что эта статья написана командой OpenAI Super Alignment, несколько авторов которой покинули OpenAI в начале этого года, и команда также распалась. Один из авторов сообщил, что это последняя статья команды.

Интуитивный пример

Чтобы улучшить читаемость результатов модели, OpenAI оптимизировал цепочку мыслей (CoT) некоторых математических задач начальной школы, чтобы ее можно было понять с помощью более слабых моделей. Примеры следующие:

Вопрос: Отец Шоны в пять раз старше Шоны. Шона теперь в три раза старше Алии. Если Алие 3 года, сколько лет отцу Шоны?

Целью этого является проверка того, являются ли выходные данные обученной модели более прямыми и понятными.

Этот метод повышает производительность модели на 50%, внося при этом лишь некоторую оптимизацию обучающего набора. В то же время ответы, выдаваемые моделью, также более понятны, что также помогает пользователям-людям, которым необходимо оценить правильность этих ответов, делать более точные суждения. OpenAI считает, что дальнейшее сокращение разрыва в производительности между более читаемыми и более функциональными моделями является ключевой целью будущих исследований согласования.

Как соревнуются «сертификаторы» и «проверяющие» во время обучения?

Чтобы стимулировать сильные модели (доказательства) генерировать более читаемый текст, исследователи приняли схему обучения, которая требует, чтобы ответы, сгенерированные сильными моделями, легко проверялись более слабыми моделями (проверяющими). В частности, использовались большие и маленькие модели серии GPT-4. Они различаются примерно на три порядка по объему предтренировочных данных. Все они проходят некоторую подготовку по математическому выводу, основанную на человеческих аннотациях, но не проходят обширное постобучение.

Сначала команда попросила модель доказывающего решить ряд математических задач. Поскольку сама модель доказательства может быть ошибочной, некоторые ответы, которые она генерирует, могут быть неверными. Затем они передают эти ответы модели верификатора, выполняя несколько раундов поочередной проверки между следующими двумя этапами:

Обучение «проверяющего». Исследовательская группа обучает более слабую модель «проверяющего», чтобы проверить, верен ли ответ, данный «проверяющим».

Обучение «доказывающему»: исследовательская группа инструктирует более мощную модель «доказывающего» играть «полезные» или «хитрые» роли.

Если для «доказывающего» установлено значение «полезно», исследовательская группа вознаградит «проверяющего» за правильные ответы высокими баллами.

Когда «доказывающему» было назначено быть «хитрым», исследовательская группа вместо этого вознаграждала «проверяющего» за неправильные ответы высокими баллами.

Исследовательская группа обнаружила, что изначально хитрый «доказывающий» мог легко дать неправильные ответы, которые убедили «проверяющего». Однако эти неправильные ответы войдут в следующий раунд обучения «верификаторов», и те же самые уязвимости уже не будут убедительными в следующем раунде. Таким образом, «доказывающему» придется исследовать разные стратегии в каждом раунде.

Обучение заканчивается, когда хитрый «доказывающий» больше не может генерировать ложное решение, которое убеждает «проверяющего».

Что обнаружили исследователи?

Компромисс между производительностью и читабельностью:

Модель, которая выполняет только контролируемую точную настройку вывода, написанного человеком, более читабельна, но менее точна.

Когда целью оптимизации модели является только корректность, то есть сосредоточение внимания только на генерировании правильных ответов, хотя и может быть достигнута высокая точность, сгенерированные решения менее читабельны.

Подход к проверяемой игре, предложенный OpenAI, уравновешивает эти два фактора, обеспечивая высокую читаемость и умеренную точность.

Три полезных модели:

Надежный верификатор: эффективно различает правильные и неправильные решения, даже если они вводят в заблуждение.

Полезное средство доказательства: генерирует решения, понятные людям, тем самым уменьшая количество ошибок, совершаемых оценщиками.

Искусный доказывающий: выдает тонкие, ошибочные решения, которые поначалу сбивают с толку людей, проводящих оценку, тем самым выдвигая на первый план области, требующие дальнейшего улучшения.

Исследовательская группа использовала те же тестовые вопросы, чтобы продемонстрировать содержание генерации и процесс обучения Sneaky Prover.

в заключение

Поскольку большие языковые модели (LLM) все чаще используются в критических областях и сложных приложениях, очень важно понимать, заслуживает ли доверия генерируемый ими контент. Требуя, чтобы у моделей были четкие и поддающиеся проверке причины для их производства, вы можете повысить доверие к тому, что они производят.

Значительным преимуществом этого подхода является то, что он снижает зависимость от человеческой демонстрации или суждений о читабельности. Эта автономия особенно важна для согласования будущих сверхразумных систем искусственного интеллекта с конечной целью надежного согласования систем искусственного интеллекта с человеческими ценностями и ожиданиями без прямого контроля со стороны человека.

Хотя эта работа проводилась только с одним набором данных и по-прежнему требует меток достоверности, исследовательская группа по-прежнему ожидает, что такие методы сыграют важную роль в разработке правильных, прозрачных и проверяемых систем искусственного интеллекта и повысят их надежность и безопасность в реальном мире. Приложения.

Более подробную информацию можно найти в оригинальной статье.

Справочные ссылки:

https://openai.com/index/prover-verifier-games-improve-legibility/

Новости

Посмертная работа команды OpenAI Super Alignment: две большие модели играют в игру, и результат становится более понятным

Введение

моя контактная информация