Последняя статья OpenAI позволяет объяснить сверхмощные модели

Текст/AI Автор будущего руководства Хао Боян

Редактор/Чжоу Сяоянь

Сегодня OpenAI выпустила новую статью, которая является «посмертной работой» несуществующей команды OpenAI Super Alignment. Он предлагает новый способ улучшить интерпретируемость модели, который заключается в том, чтобы позволить модели объяснять свою собственную логику, и чем проще ее объяснить, тем лучше.

Эта идея на самом деле не нова, но раньше все использовали для этого слово «проект». Используйте подсказки, такие как цепочки мыслей, чтобы заставить ИИ объяснить свои ответы. Но не было бы лучше, если бы модель изначально лучше объясняла? Затем вам придется внести некоторые коррективы в процессе обучения модели. Для достижения этой цели OpenAI предложила метод под названием «обучение проверяемости». Метод, называемый «игрой сертификатор-верификатор», используется для улучшения способности модели объяснять себя. Наконец обнаружил, что этот метод действительно полезен.

Как именно они это сделали?

Мы хотим обучить очень умный ИИ (назовем его «доказывающим») решать математические задачи. Мы надеемся, что этот ИИ сможет не только дать правильный ответ, но и доходчиво объяснить его и облегчить понимание людьми. Однако если мы просто позволим ИИ искать правильный ответ, он может разработать очень сложный и трудный для понимания способ решения проблем.

Например, в примере ниже ответ, данный моделью, правильный, но метод доказательства весьма невероятен. Из-за этого обычным пользователям, в том числе клиентам в отраслях, требующих высокой точности, сложно судить о правильности своих идей.

Поэтому, чтобы избежать такой ситуации, исследователи придумали хитрый метод:

1. Они создают ИИ-«рефери» (называемый «валидатором»). Этот судья не так умен, как ИИ, решающий проблемы, но его работа состоит в том, чтобы судить, является ли ответ ИИ, решающего проблемы, правильным и ясным.

2. Затем они попросили ИИ, решающий проблемы, сыграть две роли: «хорошего ученика» (полезного ИИ), пытающегося дать правильные и четкие ответы, и «непослушного ученика» (хитрого ИИ), пытающегося дать ответы, которые могут дать ответы. кажутся правильными, но на самом деле они слегка неверны.

3. Оба «ученика» пытаются убедить ИИ рефери в правильности их ответа.

4. Со временем ИИ судьи становится все лучше и лучше определяет правильные и неправильные ответы. В то же время ИИ «хорошего ученика» научился более четко объяснять проблемы, а ИИ «непослушного ученика» научился совершать более тонкие ошибки.

5. Процесс повторяется, как продолжающаяся игра.

Этот процесс представляет собой «игру сертификатор-верификатор». Таким образом, после нескольких раундов обучения объяснения модели становятся все более ясными. Например, после одного раунда такого обучения интерпретация модели становится намного лучше.

(Результаты первого тура обучения уже подробно описаны)

После пяти раундов модель в принципе сможет объяснить вам тему тоном учителя начальных классов.

(Результаты пятого тура тренинга)

И этот «верификатор» искусственного интеллекта судьи также эволюционировал под давлением хитрого искусственного интеллекта. Научитесь лучше различать, верны или ложны ответы. Даже если хитрый ИИ выдвинет фантастические заявления, в нем будет легче найти лазейки.

(Это ответ от Хитрого ИИ, выглядит вполне прилично)

(Со временем уровень хитрости ИИ также повышается)

В процессе исследователи OpenAI также обнаружили метод под названиемФеномен «налога на понятность», при котором чем более понятны результаты ИИ, тем больше вероятность того, что им придется пожертвовать определенным уровнем производительности или точности.

Они составили диаграмму, изображающую это явление.

На картинке, Ось X: представляет точность генератора моделей, ось Y: представляет точность оценщиков, которая здесь используется как мера разборчивости. Модель, которая непосредственно выполняет обучение с подкреплением (RL) без «обучения проверяемости», имеет большие возможности, но плохую интерпретируемость. Модели, прошедшие «обучение проверяемости», могут повысить точность, сохраняя при этом ту же интерпретируемость. Но есть предел. «Налог на понятность», отмеченный на рисунке красной стрелкой, — это производительность, которой приходится жертвовать, не теряя при этом интерпретируемости.

Что конкретно дает это исследование? Из приведенных выше примеров мы также можем видеть, что метод объяснения, который легче понять ИИ-рефери, также легче понять и нам, людям.этот Это показывает, что мы можем использовать меньшие по размеру и более простые в обучении модели вместо обратной связи с аннотациями, выполняемыми человеком (например, RHLF), чтобы улучшить понятность результатов больших моделей. В статье возлагаются большие надежды на этот метод. Они утверждают, что «такая автономия будет особенно важна для согласования будущих сверхразумных систем ИИ с целью обеспечения того, чтобы системы ИИ надежно соответствовали человеческим ценностям и ожиданиям без прямого человеческого контроля».

Напомним, новаторской работой команды Super Alignment стала идея использования слабых моделей для надзора за сильными моделями. Похоже, что, столкнувшись с изначальным идеалом супервыравнивания, они действительно пытаются использовать различные методы для его достижения. Жаль, что все изменилось, команда ушла, и все, что мы сейчас слышим, это последний отзвук.

Новости

Последняя статья OpenAI позволяет объяснить сверхмощные модели

Последняя статья OpenAI позволяет объяснить сверхмощные модели

Введение

моя контактная информация