OpenAI의 최신 논문을 통해 초강력 모델이 스스로 설명 가능

텍스트/AI 미래 가이드 저자 Hao Boyang

편집자/저우샤오옌

오늘 OpenAI는 현재 존재하지 않는 OpenAI Super Alignment 팀의 "사후 작업"인 새로운 논문을 발표했습니다. 모델 해석성을 향상시키는 새로운 방법을 제안합니다. 즉, 모델이 자체 논리를 설명하도록 하고, 설명하기 쉬울수록 좋습니다.

이 아이디어는 사실 새로운 것은 아니지만 이전에는 모두가 프롬프트 단어 프로젝트를 사용하여 이를 수행했습니다. 사고 사슬과 같은 프롬프트를 사용하여 AI가 답변을 설명하도록 강제합니다. 하지만 애초에 모델이 설명을 더 잘하면 더 좋지 않을까요? 그런 다음 모델 학습 프로세스 중에 몇 가지 조정을 수행해야 합니다. 이 목표를 달성하기 위해 OpenAI는 '검사성 훈련'이라는 방법을 제안했습니다. 모델의 자기 설명 능력을 향상시키기 위해 '인증자-검증자 게임'이라는 방법이 사용됩니다. 마침내 이 방법이 실제로 유용하다는 것을 발견했습니다.

그들은 정확히 어떻게 했나요?

우리는 수학적 문제를 해결하기 위해 매우 똑똑한 AI("증명자"라고 부르자)를 훈련시키고 싶습니다. 우리는 이 AI가 정답을 줄 뿐만 아니라, 명확하게 설명하고 사람들이 이해하기 쉽게 만들 수 있기를 바랍니다. 하지만 AI가 정답을 추구하도록 놔두면 매우 복잡하고 이해하기 어려운 문제 해결 방법이 개발될 수 있습니다.

예를 들어, 아래 예에서는 모델이 제시한 답은 맞지만, 증명 방법은 말로 표현할 수 없을 정도로 매우 어렵습니다. 이로 인해 높은 정밀도가 요구되는 산업 분야의 고객을 포함한 일반 사용자는 자신의 아이디어가 올바른지 판단하기가 어렵습니다.

그래서 이러한 상황을 피하기 위해 연구자들은 다음과 같은 기발한 방법을 생각해 냈습니다.

1. "심판" AI("검증기"라고 함)를 만듭니다. 이 심판관은 문제해결 AI만큼 똑똑하지는 않지만 문제해결 AI의 답변이 정확하고 명확한지 판단하는 역할을 합니다.

2. 그런 다음 문제 해결 AI에게 정확하고 명확한 답변을 제공하는 "좋은 학생"(도움이 되는 AI)과 다음과 같은 답변을 제공하는 "나쁜 학생"(교활한 AI)의 두 가지 역할을 수행하도록 요청했습니다. 올바른 것처럼 보이지만 실제로는 미묘하게 잘못되었습니다.

3. 두 "학생" 모두 자신의 대답이 옳다고 심판 AI를 설득하려고 합니다.

4. 시간이 지남에 따라 심판 AI는 정답과 오답을 식별하는 능력이 점점 더 향상됩니다. 동시에 '좋은 학생' AI는 문제를 더 명확하게 설명하는 방법을 배웠고, '나쁜 학생' AI는 더 미묘한 실수를 하는 방법을 배웠습니다.

5. 프로세스는 진행 중인 게임처럼 반복됩니다.

이 과정이 "인증자-검증자 게임"입니다. 이러한 방식으로 여러 차례의 훈련을 거친 후에는 모델의 설명이 점점 더 명확해집니다. 예를 들어, 이러한 종류의 훈련을 한 번 수행한 후에는 모델 해석이 훨씬 더 좋아집니다.

(1차 교육 결과는 이미 자세히 나와있습니다.)

5라운드가 지나면 모델은 기본적으로 초등학교 교사의 어조로 주제를 설명할 수 있습니다.

(5차 훈련 결과)

그리고 이 심판 AI '검증자' 역시 교활한 AI의 압력을 받아 진화했다. 대답이 참인지 거짓인지 더 잘 분별하게 됩니다. 교활한 AI가 환상적인 주장을 하더라도 그 안에서 허점을 찾는 것이 더 쉬울 것입니다.

(Cunning AI의 답변입니다. 꽤 괜찮은 것 같습니다.)

(시간이 지날수록 교활한 AI의 수준도 향상됩니다)

이 과정에서 OpenAI 연구진은 이라는 방법도 발견했습니다.AI 출력이 이해하기 쉬울수록 일정 수준의 성능이나 정확도가 희생될 가능성이 높아지는 '이해성 세금' 현상.

그들은 이 현상을 나타내는 다이어그램을 만들었습니다.

사진 속에, X축: 모델 생성기의 정확성을 나타냅니다. Y축: 인간 평가자의 정확성을 나타내며 여기서는 가독성의 척도로 사용됩니다. "검사 가능성 훈련" 없이 강화 학습(RL)을 직접 수행하는 모델은 성능은 강력하지만 해석 가능성이 낮습니다. "검사 가능성 교육"을 받은 모델은 동일한 해석 가능성을 유지하면서 정확도를 높일 수 있습니다. 하지만 그림에서 빨간색 화살표로 표시된 '이해성세'는 해석성을 잃지 않고 희생해야 하는 성능이다.

이 연구는 정확히 무엇을 하는가? 또한 심판 AI가 이해하기 쉬운 설명 방법이 우리 인간도 이해하기 쉽다는 것을 위의 예에서 알 수 있습니다.이것 이는 더 작고 훈련하기 쉬운 모델을 사용하여 인간 주석 피드백(예: RHLF)을 대체하여 대규모 모델 출력의 이해 가능성을 향상시킬 수 있음을 보여줍니다. 논문은 이 방법에 높은 기대를 걸고 있다. 그들은 “이러한 자율성은 인간의 직접적인 감독 없이 AI 시스템이 인간의 가치와 기대에 안정적으로 부합하도록 보장하는 것을 목표로 미래의 초지능 AI 시스템을 정렬하는 데 특히 중요할 것”이라고 주장합니다.

Super Alignment 팀의 선구적인 작업은 약한 모델을 사용하여 강한 모델을 감독한다는 아이디어였다는 것을 기억하세요. 초정렬이라는 본래의 이상에 직면하여, 그들은 그것을 달성하기 위해 실제로 다양한 방법을 사용하려고 노력하고 있는 것 같습니다. 상황이 변해서 안타깝고, 팀이 떠났고, 지금 우리가 들을 수 있는 것은 마지막 울림뿐이다.

소식

OpenAI의 최신 논문을 통해 초강력 모델이 스스로 설명 가능

OpenAI의 최신 논문을 통해 초강력 모델이 스스로 설명 가능

소개

내 연락처 정보