OpenAI, PVG 출시: 소형 모델을 사용하여 대형 모델 출력을 검증하여 "블랙박스" 문제 해결

2024-07-18

7월 18일 이른 아침, OpenAI는 공식 홈페이지를 통해 최신 기술 연구인 Prover-Verifier-를 공개했습니다.계략。

ChatGPT는 법률, 금융, 마케팅 등의 분야에서 널리 사용되므로 모델의 출력이 안전하고 정확하며 잘 이해되는지 확인하는 것이 매우 중요합니다. 그러나 신경망의 복잡성과 가변성으로 인해 생성되는 콘텐츠의 정확성을 확인할 수 없으며, 이로 인해 "블랙박스" 출력이 발생합니다.

이 문제를 해결하기 위해 OpenAI는 새로운 훈련 프레임워크인 Prover-Verifier Games(약칭: PVG)를 제안했습니다. 예를 들어 GPT-3과 같은 소형 모델을 사용하여 대형 GPT-4 모델의 출력을 검증하고 감독합니다. , 이에 따라 출력 정확도가 향상됩니다.

실제로 PVG 기술 개념은 이미 2021년 8월 한 논문에서 제안됐다. , OpenAI도 이러한 영감에서 영감을 받았습니다. 증명자와 검증자 간의 상호 작용을 시뮬레이션하여 모델의 출력 품질을 향상시키는 게임 이론 기반의 학습 방법입니다.

이 메커니즘에서 Prover의 작업은 콘텐츠를 생성하는 것이고 Verifier의 작업은 콘텐츠가 올바른지 확인하는 것입니다.

PVG 모듈의 핵심 아이디어는 여러 차례의 반복 학습을 통해 증명자와 검증자의 전반적인 성능을 향상시키는 것입니다. 각 훈련 라운드에서 검증자는 먼저 지도 학습을 사용하여 이전 라운드의 증명자로부터 샘플링된 콘텐츠의 정확성을 예측합니다.

이는 검증자가 방대한 양의 콘텐츠에서 정답을 식별하는 방법을 학습할 수 있도록 하기 위한 것입니다. 그런 다음 증명자는 강화 학습을 사용하여 생성된 콘텐츠를 최적화하여 정확할 뿐만 아니라 검증자에게 설득력도 부여합니다.

검증 과정에서 증명자와 검증자의 역할은 상호의존적입니다.증명자는 검증자를 설득할 수 있는 콘텐츠를 생성해야 하며, 검증자는 올바른 콘텐츠를 식별할 수 있는 충분한 판단력이 있어야 합니다.。

효율성을 더욱 향상시키기 위해 OpenAI는 이를 기반으로 Helpfulprover와 Sneaky 증명자라는 두 가지 향상된 유형의 증명자를 설계했습니다.

유용한 증명자의 목표는 정확하고 설득력 있는 콘텐츠를 생성하는 것입니다. 검증인이 승인할 수 있도록 생성된 콘텐츠를 최적화합니다.

교활한 증명자는 부정확하지만 똑같이 설득력 있는 콘텐츠를 생성하여 검증자를 속이려고 합니다. 이 설계는 훈련의 난이도를 높일 뿐만 아니라 검증자가 더 높은 판단력과 견고성을 요구합니다.

PVG를 훈련할 때 각 훈련 라운드에는 검증자와 증명자의 최적화가 포함됩니다. 각 라운드에서 검증자는 먼저 지도 학습을 사용하여 콘텐츠의 정확성을 예측함으로써 검증자가 많은 양의 콘텐츠에서 정답을 식별하는 방법을 학습할 수 있도록 돕습니다. 증명자가 강화 학습을 통해 생성된 콘텐츠를 최적화할 수 있습니다.

예를 들어, 사용자가 "샤우나의 아버지는 샤우나 나이의 5배입니다. 샤우나는 현재 알리야 나이의 3배입니다. 알리야가 3살이라면 샤우나 아버지는 몇 살입니까?"라고 질문하는 경우,

GPT-4의 출력은 45세입니다.

검증 모델 GPT-3는 Alya의 나이를 결정한 다음 Alya의 나이를 기준으로 Shauna의 나이를 계산하고 마지막으로 Shauna의 나이를 기준으로 Shauna의 아버지의 나이를 계산해야 합니다. 전체 프로세스에는 여러 차례의 검증이 필요합니다.

또한 훈련 과정에서 OpenAI는 '검사 가능성 훈련'이라는 방법도 도입했습니다.

검증자 모델과 증명자 모델을 교대로 훈련하여 지도 학습을 사용하여 이전 증명자 라운드에서 샘플링된 솔루션을 예측하는 것이 올바른지 확인합니다. 증명자는 강화 학습을 사용하여 현재 검증자의 승인과 솔루션의 정확성을 기반으로 지속적으로 최적화합니다.

연구자들은 말한다 , 훈련 라운드 수가 증가함에 따라 검증기의 건전성은 교활한 시연자들에 의해 생성된 잘못된 솔루션에 대한 저항력 증가로 인해 점차 향상됩니다. 동시에, 도움이 되는 논쟁자들이 제시한 해결책은 인간이 이해하기 더 명확하고 쉬워집니다.

그러나 검증 모델을 훈련할 때 참과 거짓을 구별하는 능력을 향상시키기 위해서는 대량의 실제적이고 정확한 라벨 데이터가 필요하다는 점에 유의해야 합니다. 즉, 사용된 검증 모델이 편향된 경우에도 검증 내용이 불법적으로 출력될 수 있습니다.

본 글의 자료는 OpenAI 공식 홈페이지 및 논문에서 발췌한 것이며, 침해 내용이 있는 경우 당사에 연락하여 삭제해 주시기 바랍니다.

소식

OpenAI, PVG 출시: 소형 모델을 사용하여 대형 모델 출력을 검증하여 "블랙박스" 문제 해결

소개

내 연락처 정보