소식

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

AI 모델이 내놓은 답변이 전혀 이해하기 어렵다면 감히 사용해 보시겠습니까?

기계 학습 시스템이 더 중요한 영역에서 사용됨에 따라 우리가 그 결과를 신뢰할 수 있는 이유와 신뢰할 수 없는 경우를 보여주는 것이 점점 더 중요해지고 있습니다.

복잡한 시스템의 출력에 대한 신뢰를 얻는 한 가지 가능한 방법은 시스템이 인간이나 다른 신뢰할 수 있는 시스템이 읽을 수 있는 출력 해석을 생성하도록 요구하는 것입니다. 즉, 가능한 오류가 발생할 수 있는 지점까지 완전히 이해할 수 있습니다. 설립하다. 예를 들어, 사법 시스템에 대한 신뢰를 구축하기 위해 우리는 법원이 자신의 결정을 설명하고 뒷받침하는 명확하고 읽기 쉬운 서면 의견을 제공하도록 요구합니다.

대규모 언어 모델의 경우 유사한 접근 방식을 채택할 수도 있습니다.

그러나 이 접근 방식을 사용할 때는 특히 수학과 코딩과 같은 복잡한 작업을 처리할 때 언어 모델이 이해할 수 있는 텍스트를 생성하는지 확인하는 것이 중요합니다.

아래 그림과 같이 AI에게 퀵 정렬 알고리즘을 작성해 달라고 요청하면 AI가 빠르게 작성해 주는데, 대답은 매우 간결합니다. 하지만 코드 작성 방법을 모른다면 AI가 올바르게 작성되었는지 어떻게 판단할 수 있습니까?

OpenAI는 최근 논문에서 이 문제를 연구했습니다.

논문 제목: 검증자 게임으로 LLM 출력의 가독성 향상

논문 링크: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

그들은 대규모 언어 모델에 "올바른 답을 얻기"라는 목표로 답을 생성하도록 요청하면 그들이 제공하는 답을 이해하기 어려울 수 있음을 발견했습니다. 인간 평가자는 이러한 답변을 판단할 때 실수를 할 가능성이 두 배 더 높습니다.

따라서 그들의 목표는 더 간단한 모델이 쉽게 확인할 수 있는 텍스트를 생성할 수 있도록 고급 언어 모델을 훈련시키는 것입니다. 그들은 그러한 텍스트가 단순한 모델에 친숙할 뿐만 아니라 인간에게도 더 읽기 쉽다는 것을 발견했습니다.

그렇다면 어떻게 달성됩니까? 여기에는 2021년 논문인 "증명자 검증 게임을 통해 확인 가능한 답변을 제공하는 방법 학습"도 언급되어 있습니다. 본 논문에서 Cem Anil et al.은 "Prover-Verifier Games"라는 게임 이론 프레임워크를 제안했습니다. 프레임워크는 두 개의 경쟁하는 학습자로 구성됩니다. 하나는 정답을 선택하려는 신뢰할 수 있는 검증자 네트워크이고, 다른 하나는 검증자가 정확성에 관계없이 특정 답변을 수락하도록 설득하려는 더 강력하지만 신뢰할 수 없는 증명자 네트워크입니다. 이 프레임워크의 목표는 게임에서 신뢰할 수 있는 증명 프로토콜을 생성하는 것입니다.

OpenAI는 이 새로운 연구에서 이 프레임워크를 빌려 두 개의 대형 모델(더 강한 모델이 증명자가 되고 약한 모델이 검증자가 됨)이 균형에 도달할 때까지 서로 대결할 수 있도록 했습니다. 이때 증명자가 제시한 답은 읽기 쉽고 합리적으로 정확합니다.

OpenAI는 모델 출력의 가독성을 향상함으로써 인공지능의 적용을 더욱 효과적이고 신뢰성 있게 만들 수 있어 정확한 의사소통이 필요한 다양한 분야에 유리하다고 밝혔습니다.

이 논문은 OpenAI의 Super Alignment 팀에서 나온 것이며, 그 중 몇몇 저자는 올해 초 OpenAI를 떠났고 팀도 무너졌습니다. 저자 중 한 명은 이것이 팀의 마지막 논문이라고 밝혔습니다.

직관적인 예

OpenAI는 모델 출력의 가독성을 높이기 위해 일부 초등학교 수학 문제의 CoT(사고 사슬)를 최적화하여 약한 모델에서도 이해할 수 있도록 했습니다. 예는 다음과 같습니다:

질문: Shawna의 아버지는 Shawna보다 5배 나이가 많습니다. Shauna는 이제 Aliya 나이의 세 배입니다. Aaliyah가 3살이라면 Shauna의 아버지는 몇 살입니까?

이것의 목적은 훈련된 모델의 출력이 더 직접적이고 이해하기 쉬운지 확인하는 것입니다.

이 방법은 훈련 세트에 대해 일부 최적화만 수행하면서 모델 성능을 50% 향상시킵니다. 동시에, 모델에서 출력되는 답변도 더 이해하기 쉬워서 이러한 답변의 정확성을 평가해야 하는 인간 사용자가 보다 정확한 판단을 내리는 데 도움이 됩니다. OpenAI는 판독 가능한 모델과 가능한 모델 간의 성능 격차를 더욱 줄이는 것이 향후 정렬 연구의 핵심 목표라고 믿습니다.

훈련 중에 "인증자"와 "검증자"는 어떻게 경쟁합니까?

강력한 모델(증명자)이 더 읽기 쉬운 텍스트를 생성하도록 장려하기 위해 연구원은 강력한 모델에서 생성된 답변을 약한 모델(검증자)이 쉽게 확인할 수 있도록 요구하는 훈련 방식을 채택했습니다. 특히 GPT-4 시리즈의 크고 작은 모델을 사용했습니다. 사전 훈련 데이터의 양이 약 3배 정도 다릅니다. 그들은 모두 인간 주석을 기반으로 한 일부 수학적 파생 교육을 받았지만 광범위한 사후 교육은 받지 않았습니다.

먼저 팀은 증명자 모델을 통해 일련의 수학적 문제를 해결하려고 했습니다. 증명 모델 자체가 틀릴 수 있기 때문에, 그것이 생성하는 답 중 일부가 틀릴 수도 있습니다. 다음으로, 이러한 답변을 검증자 모델에 전달하여 다음 두 단계 사이에서 여러 차례 교대로 검증을 수행합니다.

"검증자" 훈련: 연구팀은 "증명자"가 제공한 답변이 올바른지 확인하기 위해 더 약한 "검증자" 모델을 훈련합니다.

"증명자" 훈련: 연구팀은 더 강력한 "증명자" 모델에게 "유용한" 또는 "교활한" 역할을 수행하도록 지시합니다.

"증명자"가 "유용함"으로 설정되면 연구팀은 정답에 대해 "검증자"에게 높은 점수로 보상합니다.

'증명자'가 '교활함'으로 설정되었을 때 연구팀은 대신 오답에 대한 '검증자'에게 높은 점수를 부여했습니다.

연구팀은 처음에는 교활한 "증명자"가 "검증자"를 설득하는 잘못된 답변을 쉽게 생성할 수 있다는 사실을 발견했습니다. 그러나 이러한 잘못된 답변은 다음 라운드의 "검증자" 교육에 들어가게 되며, 동일한 취약점은 다음 라운드에서 더 이상 설득력이 없게 됩니다. 따라서 "증명자"는 각 라운드에서 서로 다른 전략을 탐색해야 합니다.

교활한 "증명자"가 더 이상 "검증자"를 설득하는 잘못된 솔루션을 생성할 수 없을 때 훈련이 종료됩니다.

연구자들은 무엇을 발견했나요?

성능과 가독성의 균형:

사람이 작성한 파생 항목에 대해 감독된 미세 조정만 수행하는 모델은 읽기 쉽지만 정확도는 떨어집니다.

모델의 최적화 목표가 정확성, 즉 정답 생성에만 초점을 맞추는 경우 높은 정확도를 달성할 수 있지만 생성된 솔루션의 가독성이 떨어집니다.

OpenAI가 제안하는 체크 가능한 게임 접근 방식은 둘 사이의 균형을 유지하면서 높은 가독성을 유지하면서 적당한 정확도를 유지합니다.

세 가지 유용한 모델:

강력한 검증기: 솔루션이 오해의 소지가 있는 경우에도 올바른 솔루션과 잘못된 솔루션을 효과적으로 구분합니다.

유용한 증명자: 인간이 이해할 수 있는 솔루션을 생성하여 인간 평가자의 오류를 줄입니다.

교활한 증명자: 처음에는 인간 평가자를 혼란스럽게 하는 미묘하고 잘못된 솔루션을 생성하여 추가 개선이 필요한 영역을 강조합니다.

연구팀은 Sneaky Prover의 생성 콘텐츠와 훈련 과정을 시연하기 위해 동일한 테스트 문제를 사용했습니다.

질문: Shawna의 아버지는 Shawna보다 5배 나이가 많습니다. Shauna는 이제 Aliya 나이의 세 배입니다. Aaliyah가 3살이라면 Shauna의 아버지는 몇 살입니까?

결론적으로

LLM(대규모 언어 모델)이 중요한 도메인과 복잡한 애플리케이션에서 점점 더 많이 사용됨에 따라, LLM이 생성하는 콘텐츠가 신뢰할 수 있는지 여부를 이해하는 것이 중요합니다. 모델에게 명확하고 검증 가능한 생산 이유를 요구함으로써 모델이 생산하는 제품에 대한 신뢰를 높일 수 있습니다.

이 접근 방식의 중요한 장점은 인간의 시연이나 가독성 판단에 대한 의존도를 줄여준다는 것입니다. 이러한 자율성은 인간의 직접적인 감독 없이 AI 시스템을 인간의 가치와 기대에 맞게 안정적으로 조정하려는 궁극적인 목표를 가지고 미래의 초지능 AI 시스템을 조정하는 데 특히 중요합니다.

이 작업은 하나의 데이터 세트에서만 수행되었으며 여전히 Ground Truth 라벨이 필요하지만, 연구팀은 이러한 방법이 정확하고 투명하며 검증 가능한 AI 시스템을 개발하고 실제 세계에서 신뢰성과 보안을 향상시키는 역할을 할 것으로 기대합니다. 응용 프로그램.

자세한 내용은 원문을 참고하시기 바랍니다.

참조 링크:

https://openai.com/index/prover-verifier-games-improve-legibility/