OpenAI의 '마지막' 슈퍼 정렬 논문: 크고 작은 모델의 게임, 출력 가독성 up

OpenAI의 '마지막' 슈퍼 정렬 논문: 크고 작은 모델의 게임, 출력 가독성 향상

2024-07-18

크레시는 아오페이 사원(Aofei Temple)에서 왔습니다.
Qubits 공개 계정 QbitAI

허락하다크고 작은 모델이 서로 경쟁합니다., 생성된 콘텐츠의 가독성을 향상시킬 수 있습니다!

이는 OpenAI의 진지한 연구입니다. 목표는 정확성을 보장하면서 모델 출력을 더 쉽게 이해하는 것입니다.

이 방법으로 훈련한 후에는 모델 출력에 대한 인간의 판단 정확도가 크게 향상되었으며 속도도 빨라졌습니다.

OpenAI의 없어진 "Hyper-Alignment" 팀의 연구는 토론토 대학교 학자들의 2021년 연구를 모방합니다."증명-검증자" 게임。

훈련 과정에서 OpenAI는 대형 모델을 "증명자"로, 소형 모델을 "검증자"로 사용하여 두 ID가 서로 경쟁할 수 있도록 합니다.

결국 대형 모델의 출력 결과는이해하기가 더 쉽고 정확성이 눈에 띄게 손실되지 않습니다., 소형 모델의 판단 수준도 향상되었습니다.

논문 작성자 중 한 명인 OpenAI 연구원 Yining Chen도 이러한 접근 방식은 "미래 모델을 인간보다 더 똑똑하게 만들 수 있는 잠재력을 가지고 있습니다"라고 말했습니다.

전 슈퍼 얼라인먼트 팀장이자 RLHF의 저자라는 점은 언급할 가치가 있습니다.얀 레이케그는 이 연구에도 참여했다. 그는 직장을 그만두면서 보안에 관심을 두지 않는다고 OpenAI를 비난했다.

그러나 이 논문을 소개하는 Jan Leike의 트윗 끝부분에서 그는 현재 인력을 모집하고 있는 Anthropic(Claude 제조사)에 대한 광고를 하고 있었습니다.

이 논문의 또 다른 저자인 OpenAI 연구원 Nat McAleese는 트윗을 통해 이것이 OpenAI의 마지막(최종) 슈퍼 정렬 논문이 될 것이라고 밝혔습니다.

이 소식은 일부 네티즌들을 매우 흥분시켰고, 이것이 마지막 기사가 아닐 것이라고 말했습니다. Nat, 계속 슈퍼 정렬을 할 것입니다.

모델들이 서로 대결하게 해주세요

OpenAI 연구에 따르면 대형 모델에서 생성된 콘텐츠는 정확성과 가독성이라는 두 가지 차원에서 어느 정도 견제와 균형을 이루고 있는 것으로 나타났습니다.

자체의 정확성을 목표로 최적화하면 가독성이 떨어지며, 가독성을 목표로 하면 자체의 정확성이 떨어집니다.

간단한 초등학교 수학 수준의 과제에서도 그 격차를 쉽게 확인할 수 있는데, OpenAI는 이것을 '이해성 세금'이라고 부릅니다.

그러나 모델이 생성한 내용을 인간이 이해할 수 있는지 여부는 정확한 판단을 내리기 위한 중요한 전제조건이며, 따라서 보안에도 중요한 영향을 미칩니다.

이를 제쳐두더라도, 콘텐츠의 이해 가능성은 모델이 인간에게 유용한 도움을 줄 수 있는지 여부를 직접적으로 결정합니다.

본 연구는 2021년 토론토 대학 학자들이 제안한 '인증자-검증자' 게임에서 영감을 얻어 게임을 통해 모델을 훈련시켰다.

증명자강력한 컴퓨팅 능력과 복잡한 계산을 수행하고 증명을 생성하는 능력을 보유하여 특정 진술이 정확하다는 것을 검증자에게 설득하는 것이 임무입니다.

검증인그러면 상대적으로 간단한 계산만이 수행될 수 있으며, 증명자가 제공한 증명이 신뢰할 수 있는지 여부를 판단하기 위해서는 상호작용적인 과정이 필요합니다.

예를 들어, 함수의 표현식을 풀어야 하는 수학적 문제가 있습니다. 증명자는 표현식을 알고 있지만(반드시 정확하지는 않음) 검증자가 자신의 대답이 정확하다고 믿기를 원합니다.

검증자는 몇몇 독립변수에 해당하는 함수값을 알고 있으며, 이 정보를 이용하여 증명자를 테스트할 수 있고, 자신의 답이 정확한지 여부에 따라 올바른 함수를 알고 있는지 판단할 수 있다.

이러한 방식으로 OpenAI는 정확도와 가독성 사이의 균형을 이루기 위해 노력하며 상대적으로 적은 정확도 손실을 더 높은 가독성으로 교환합니다.

이 프로젝트에서 OpenAI 팀은 초등학교 수학 문제, 풀이, 정답이 포함된 데이터 세트를 사용했습니다.

모델로는 다양한 크기의 GPT-4 시리즈 모델이 선택되었으며, 큰 모델은 증명자(Prover) 역할을 하고 작은 모델은 검증자(Verifier) 역할을 합니다.

데이터 세트는 두 개의 동일한 크기 하위 집합으로 무작위로 나누어지며, 이는 증명자와 검증자의 훈련에 각각 사용됩니다.

증명자에게는 도움이 되는 역할과 교활한 역할, 각각 올바른 솔루션과 잘못된 솔루션을 생성하는 두 가지 역할이 할당됩니다.

하지만 공통점은 검증자로부터 높은 점수를 받기 위해서는 둘 다 솔루션이 필요하다는 것입니다.

△다양한 훈련을 통한 교활한 증명자의 진화

이 두 가지 역할은 고정되어 있지 않으며 증명자가 필요합니다.교대로, 행동이 수행된 역할과 일치할 때 보상을 받습니다.

훈련은 여러 라운드로 나누어집니다. 각 라운드에서 팀은 이전 라운드에서 두 증명자가 생성한 솔루션에서 올바른 샘플과 잘못된 샘플을 추출합니다.

이러한 샘플은 현재 라운드의 검증인 훈련 데이터로 사용됩니다. 검증인은 지도 학습을 통해 훈련되어 판단의 정확성을 높이고 검증인이 잘못된 솔루션보다 높은 솔루션 점수를 얻을 수 있도록 합니다.

이 과정에서 교활한 증명자는 검증자에게 판단의 정확성을 높이도록 끊임없이 촉구하고, 검증자는 또한 증명자가 생성한 콘텐츠를 채점 선호도와 더욱 일치하게 만들어 상호 게임을 통해 공동의 발전을 이룬다.

높은 점수를 얻기 위한 중요한 전제 조건은 생성된 콘텐츠를 검증자가 이해할 수 있어야 한다는 것입니다. 이러한 방식으로 인간의 선호도가 검증자에 도입되는 한 모델 출력 콘텐츠의 해석 가능성이 향상될 수 있습니다.

정확성과 가독성 사이의 균형

궁극적으로 이러한 게임 기반 훈련 방법은 높은 정확도와 높은 이해도 사이에서 좋은 균형을 달성합니다.

기존의 훈련 방법은 훈련 과정이 진행될수록 모델 자체의 정확도에만 초점을 맞추지만, 인간이 내리는 판단은 점점 더 부정확해지고 느려집니다.

OpenAI 팀은 인간의 선호도를 검증자에게 도입했기 때문에 검증자의 판단 정확도는 어느 정도 인간과 관련이 있습니다.

또한 최종 결과에서는 이 게임 방식을 사용하여 훈련된 모델(증명자)이 정확도의 큰 손실 없이 훈련 횟수가 증가함에 따라 인간이 더 빠르고 정확한 판단을 내릴 수 있음을 확인했습니다.

기준 방법을 비교한 후 인간의 판단 정확도는 5라운드 후에 82%를 초과하지만 기준은 7,000단계 훈련 후에 75% 미만임을 발견하는 것은 어렵지 않습니다.

시간 측면에서 기준 인간 판단 시간은 27초에 가까우며, 새로운 방법은 26초보다 약간 더 길 뿐이다.

또한 검증자의 경우 훈련이 계속될수록 견고성이 점차 높아지며, 오답을 더욱 정확하게 식별할 수 있습니다.

OpenAI 팀은 이 게임 기반 훈련 방법의 효율성을 평가하는 것 외에도 연구 과정에서 다음과 같은 몇 가지 다른 발견도 했습니다.

검증기 크기의 영향: 너무 작으면 훈련이 불안정해지고, 너무 크면 여러 번의 훈련에서 견고성을 향상하기 어려워집니다. 증명자의 1/1000에서 100분의 1이 가장 좋은 효과를 냅니다.
악의적인 솔루션의 오류는 교육을 통해 점점 더 미묘해지고 국지화됩니다. 이는 검증자가 배신자 증명자를 밀어붙여 실제 솔루션에 더 가까운 적대적 사례를 생성한다는 것을 나타냅니다.
훈련 시대의 수가 증가함에 따라 배신자 증명자에 대한 인간 평가자의 정확도는 감소합니다.

하나 더

이번 연구를 수행한 Super Alignment 팀이 해체되어 현재 보안 문제를 담당하게 되면서 OpenAI의 보안 전략은 다시 한번 큰 주목을 받았습니다.

이 문제와 관련하여 OpenAI CTO인 Mira Murati는 이달 초 존스홉킨스 대학에서 단독 인터뷰를 수락했습니다.

Mira는 이 기간 동안 Super Alignment Team의 전 책임자인 Jan Leike가 비난한 것처럼 OpenAI가 "안전보다 제품(우선순위)을 우선시"하지 않았다고 말했습니다.

동시에 그녀는 Super Alignment 팀이 해체되었지만 실제로 Super Alignment는 OpenAI의 여러 보안 팀 중 하나일 뿐이며 회사의 많은 사람들이 여전히 보안 업무에 종사하고 있다고 말했습니다.

참조 링크:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/상태/1813646245602435542

소식

OpenAI의 '마지막' 슈퍼 정렬 논문: 크고 작은 모델의 게임, 출력 가독성 향상

모델들이 서로 대결하게 해주세요

정확성과 가독성 사이의 균형

하나 더

소개

내 연락처 정보