소식

google deepmind는 genrm 기술을 시연합니다. 즉, 생성적 ai 추론 기능을 향상시키기 위한 보상 모델로 llm을 미세 조정합니다.

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house는 google deepmind 팀이 genrm 생성 검증기를 소개 및 시연하고 생성 ai 추론 능력을 향상시키기 위한 보상 모델을 창의적으로 제안하는 내용의 논문을 8월 27일 arxiv에 게재했다고 9월 3일 보도했습니다.

ai 업계에서 현재 llm(large language model) 개선을 위한 주류 접근 방식은 best-of-n 모드, 즉 llm에서 생성된 n개의 후보 솔루션을 검증자에 의해 정렬되어 가장 좋은 솔루션이 선택되는 방식입니다. .

이러한 llm 기반 유효성 검사기는 일반적으로 솔루션 점수를 매기기 위한 차별적 분류자로 훈련되지만 사전 훈련된 llm의 텍스트 생성 기능을 활용할 수는 없습니다.

이러한 한계를 극복하기 위해 deepmind 팀은 검증 및 솔루션 생성을 수행하면서 다음 토큰 예측 대상을 사용하여 검증자를 훈련시키려고 했습니다.

deepmind 팀의 genrm(생성 검증기)은 기존 검증기에 비해 주로 다음과 같은 장점을 포함합니다.

명령 조정의 원활한 통합

사고 추론 지원 체인

다수결 투표를 통해 추가 추론 시간 계산 활용

알고리즘 및 초등학교 수학적 추론 작업에 gemma 기반 검증기를 사용할 때 genrm은 판별 검증기 및 llm-as-a-judge 검증기보다 성능이 우수하여 best-of-n 16-64%를 사용하여 해결된 문제의 비율을 향상시킵니다.

google deepmind에서 보고한 바와 같이, 범주형 보상 모델에 대한 genrm의 우위는 인공 지능 보상 시스템, 특히 새로운 모델에서 학습한 사기를 방지하는 능력 측면에서 중요한 발전을 의미합니다. 이러한 진전은 ai 결과를 사회적 책임 표준에 맞추기 위해 보상 모델을 개선해야 할 긴급한 필요성을 강조합니다.