«Последняя» сверхвысокая статья OpenAI: игра больших и маленьких моделей, читаемость вывода up

«Последний» документ о супервыравнивании OpenAI: игра больших и маленьких моделей, повышение читаемости вывода

2024-07-18

Креси происходит из храма Аофей.
Кубиты | Публичный аккаунт QbitAI

позволятьБольшие и маленькие модели конкурируют друг с другом, вы можете улучшить читаемость создаваемого контента!

Это серьезное исследование OpenAI, цель которого — облегчить понимание результатов модели, сохраняя при этом точность.

После обучения этому методу точность человеческого суждения о выходных данных модели значительно возросла, а скорость также стала выше.

Исследование несуществующей команды OpenAI «Hyper-Alignment» имитирует исследование 2021 года, проведенное учеными Университета Торонто.Игра «Доказательство-Верификатор».。

В процессе обучения OpenAI позволяет большой модели выступать в качестве «сертификатора», а маленькой модели — в качестве «проверяющего», позволяя этим двум идентификаторам конкурировать друг с другом.

В конце концов, выходные результаты большой модели не толькоЭто легче понять, и нет очевидной потери точности., уровень оценки маленькой модели также улучшился.

Даже один из авторов статьи, исследователь OpenAI Инин Чен, заявил, что этот подход «имеет потенциал сделать будущие модели умнее людей».

Стоит отметить, что бывший руководитель Super Alignment Team и автор RLHFЯн ЛейкеОн также участвовал в этом исследовании. Уходя с работы, он раскритиковал OpenAI за то, что он не уделяет внимания безопасности.

Однако в конце твита Яна Лейке, представляющего эту газету, он рекламировал компанию Anthropic (производитель Claude), где он сейчас занимается набором людей.

Другой автор статьи, исследователь OpenAI Нэт Макэлис, сообщил в твиттере, что это будет последняя (окончательная) статья OpenAI по супервыравниванию.

Эта новость очень взволновала некоторых пользователей сети, сказав, что это, должно быть, не последняя статья, Нэт, ты продолжишь делать супер-выравнивание, верно?

Пусть модели играют друг против друга

Исследование OpenAI показало, что контент, созданный с помощью больших моделей, имеет определенные сдержки и противовесы в двух измерениях: точности и удобочитаемости.

Если вы оптимизируете собственную точность в качестве цели, это приведет к снижению разборчивости, если вы возьмете в качестве цели разборчивость, ваша собственная точность будет потеряна;

Даже при выполнении простых задач по математике в начальной школе легко увидеть пробел, который OpenAI называет «налогом на понятность».

Однако способность людей понимать контент, создаваемый моделью, является важной предпосылкой для вынесения точных суждений и, следовательно, также оказывает важное влияние на безопасность.

Даже если отбросить это в сторону, понятность контента напрямую определяет, сможет ли модель принести полезную помощь человеку.

Это исследование было вдохновлено игрой «сертификатор-верификатор», предложенной учеными из Университета Торонто в 2021 году, и обучало модель с помощью игры.

доказывающийОбладая мощной вычислительной мощностью и способностью выполнять сложные вычисления и генерировать доказательства, задача состоит в том, чтобы попытаться убедить проверяющего в правильности определенного утверждения.

валидаторТогда можно выполнить только относительно простые вычисления, и требуется интерактивный процесс, чтобы определить, является ли доказательство, предоставленное доказывающим, достоверным.

Например, существует математическая задача, требующая решения выражения функции. Доказывающий знает выражение (но не обязательно правильное) и хочет, чтобы проверяющий поверил, что его ответ правильный.

Верификатор знает значения функции, соответствующие некоторым независимым переменным, и может использовать эту информацию для проверки доказывающего и судить о том, знает ли он правильную функцию, по тому, точен ли его ответ.

Таким образом, OpenAI стремится достичь баланса между точностью и разборчивостью, обменивая относительно небольшую потерю точности на более высокую разборчивость.

В этом проекте команда OpenAI использовала набор данных, содержащий математические задачи начальной школы, их решения и правильные ответы.

Для модели были выбраны модели серии GPT-4 разных размеров, причем более крупные служили пруверами, а меньшие — проверяющими.

Набор данных случайным образом делится на два подмножества одинакового размера, которые используются для обучения доказывающего и проверяющего соответственно.

Доказывающему отведены две роли: помогающий и хитрый соответственно, генерирующий правильные и неправильные решения соответственно.

Но их объединяет то, что им обоим необходимо, чтобы их решения получили высокие оценки от проверяющего.

△Эволюция хитрого доказывающего за несколько раундов обучения

Эти две роли не фиксированы, и доказывающему необходимоПо очереди, вознаграждаются, когда поведение соответствует выполняемой роли.

Обучение разделено на несколько раундов. В каждом раунде команда извлекает серию правильных и неправильных образцов из решений, сгенерированных двумя испытателями в предыдущем раунде.

Эти образцы будут использоваться в качестве данных для обучения валидатора для текущего раунда. Валидатор обучается посредством контролируемого обучения, чтобы повысить правильность его решений и позволить валидатору набирать более высокие баллы за правильные решения, чем за неправильные.

В этом процессе хитрый доказывающий постоянно призывает проверяющего повысить точность своих суждений, а проверяющий также делает контент, сгенерированный доказывающим, более соответствующим предпочтениям в оценке. Эти двое достигают общего прогресса посредством взаимных игр.

Важным условием для получения высоких оценок является то, что сгенерированный контент может быть понят верификатором. Таким образом, если в верификатор включены человеческие предпочтения, интерпретируемость выходного содержимого модели может быть улучшена.

Баланс между точностью и читаемостью

В конечном итоге такой игровой метод обучения позволяет достичь хорошего баланса между высокой точностью и высокой понятностью.

Традиционный метод обучения фокусируется только на точности самой модели. По мере продолжения процесса обучения точность ответов увеличивается, но суждения, принимаемые людьми, становятся все более неточными и медленными.

Поскольку команда OpenAI включила в верификатор человеческие предпочтения, точность суждения верификатора в определенной степени связана с человеком.

Окончательные результаты также подтвердили, что модель (прувер), обученная с помощью этого игрового метода, позволяет людям быстрее и точнее выносить суждения по мере увеличения количества раундов обучения без существенной потери точности.

После сравнения базового метода нетрудно обнаружить, что точность человеческого суждения превышает 82% после 5 раундов, но базовый уровень составляет менее 75% после 7000 шагов обучения;

С точки зрения времени, базовое время человеческого суждения приближается к 27 секундам, а новый метод — лишь немногим более 26 секунд.

Кроме того, для проверяющего по мере продолжения обучения его надежность постепенно возрастает, и он может более точно выявлять неправильные ответы.

Помимо оценки эффективности этого игрового метода обучения, команда OpenAI в ходе исследования сделала и некоторые другие выводы:

Влияние размера валидатора: слишком маленький размер приведет к нестабильному обучению, а слишком большой затруднит повышение надежности в нескольких раундах обучения. Наилучший эффект дает от одной тысячной до одной сотой доли прувера.
По мере обучения ошибки во вредоносных решениях становятся все более тонкими и локализованными, что указывает на то, что валидатор заставляет вероломного проверяющего генерировать состязательные примеры, которые ближе к истинному решению.
По мере увеличения количества эпох обучения точность людей, оценивающих коварный прувер, снижается.

Еще кое-что

Поскольку команда Super Alignment, проводившая это исследование, была распущена и теперь отвечает за вопросы безопасности, стратегия безопасности OpenAI снова привлекла широкое внимание.

По этому поводу технический директор OpenAI Мира Мурати дала эксклюзивное интервью в Университете Джонса Хопкинса в начале этого месяца.

В этот период Мира заявила, что OpenAI «не ставит продукт (приоритет) выше безопасности», как обвинил Ян Лейке, бывший руководитель команды Super Alignment Team.

В то же время она также сказала, что, хотя команда Super Alignment была расформирована, Super Alignment на самом деле является лишь одной из многочисленных команд безопасности OpenAI, и многие люди в компании по-прежнему занимаются работой по обеспечению безопасности.

Справочные ссылки:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542

Новости

«Последний» документ о супервыравнивании OpenAI: игра больших и маленьких моделей, повышение читаемости вывода

Пусть модели играют друг против друга

Баланс между точностью и читаемостью

Еще кое-что

Введение

моя контактная информация