소식

Llama 8B는 100번 검색하고 GPT-4o를 능가합니다! 추론 검색으로 성능 향상 가능, 새로운 '스케일링 법칙'

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 양차오

[새로운 지혜 소개]최근 논문에서는 LLM과 같은 생성 모델이 검색을 통해 확장될 수 있으며 매우 중요한 성능 향상을 달성할 수 있음을 보여주었습니다. 또 다른 반복 실험에서도 8B 매개변수만 있는 Llama 3.1 모델을 100번 검색하면 Python 코드 생성 작업에서 GPT-4o와 동일한 수준에 도달할 수 있는 것으로 나타났습니다.

강화학습의 선구자이자 캐나다 앨버타대학교 CS 교수인 리치 서튼(Rich Sutton)은 2019년 "The Bitter Lesson"이라는 블로그 게시물을 작성했는데, 이는 AI 분야의 고전적 논의 중 하나가 되었습니다.

실제로 선들 사이에 반영된 리치 서튼의 직관은 스케일링 법칙과 꽤 유사하다.


원본 주소: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

이 기사에서는 체스, 바둑, 음성 인식 및 시각 분야에서 AI의 개발 경로를 간략하게 검토하고 다음과 같은 견해를 제시합니다.


우리가 배워야 할 어려운 교훈 중 하나는 보편적인 접근 방식의 힘을 깨닫는 것입니다. 이 접근 방식은 사용 가능한 컴퓨팅 성능의 급증으로 인해 계산량이 증가함에 따라 계속해서 확장될 수 있습니다. 이런 식으로 임의로 확장되는 것처럼 보이는 두 가지 방법은 검색과 학습입니다.

그러나 이 견해는 스케일링 법칙과 정확히 동일하지 않으며, 이를 작은 모델이 부적절할 운명이라고 믿는 근거로 사용할 수 없습니다.

Sutton이 설명했듯이 확장을 향한 길에는 학습과 검색이라는 두 가지 주요 과제가 있습니다.

OpenAI가 제안한 스케일링 법칙은 전자를 강조합니다. Ceteris paribus의 경우 훈련 세트에서 더 많은 지식과 패턴을 학습할 수 있기 때문에 더 큰 모델의 성능이 더 좋습니다.

그러나 우리가 흔히 간과하는 것은 후자이다. 추론 단계에서 컴퓨팅 성능이 증가함에 따라 검색 방법을 원활하게 확장하여 더 많거나 더 높은 품질의 후보 답변을 생성할 수도 있습니다.

Stanford, Oxford, DeepMind 및 기타 기관의 학자들이 최근 발표한 기사에서는 이 점에 초점을 맞췄습니다.


논문 주소: https://arxiv.org/abs/2407.21787

추론 단계에서 반복 샘플 수가 증가함에 따라 GSM8K, MATH, MiniF2F-Math 및 SWE-bench Lite와 같은 수학, 추론 및 코드 분야에서 모델의 성능(즉, 문제 커버리지)이 향상되었습니다. 크게 개선되었습니다.

심지어 둘 사이에는 지수적 선형 관계가 있는 것으로 보이며, 이는 지수 거듭제곱의 법칙으로 모형화될 수 있는데, 이는 추론 단계에서 스케일링 법칙의 존재를 설명하는 것으로 보인다.


이 논문에서 영감을 받아 두 엔지니어는 이를 재현하기 시작했습니다. 그 결과 100개의 작은 Llama 모델을 검색하여 Python 프로그래밍 작업에서 GPT-4o를 따라잡거나 심지어 능가할 수도 있었습니다.


두 저자는 생생한 비유를 사용했습니다. 이전에는 경계 능력을 얻으려면 말 크기의 오리가 필요했지만 이제는 오리 크기의 말 100마리(더 정확하게는 알파카 라마)를 사용할 수 있습니다.

실험에 사용된 소스코드는 GitHub에 업로드되어 있으며, 복제 비용은 상당히 저렴합니다.


https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

더 높은 성능을 시도하기 위해 저자는 vLLM 라이브러리를 사용하여 일괄 추론을 구현하고 하드웨어 조건을 10 A100-40GB GPU로 확장했으며 출력 속도는 40k 토큰/초에 도달했습니다.

평가 지표 및 결과

저자는 위에서 언급한 Large Language Monkeys 논문에서 다루지 않은 벤치마크 테스트인 HumanEval을 선택했습니다.

이 데이터 세트의 이점은 LLM-판사 또는 인간 평가의 개입 없이 실행 중인 테스트를 사용하여 생성된 코드를 평가할 수 있어 보다 객관적인 정확성 측정이 가능하다는 것입니다.

모델의 성능은 pass@k와 failure@k라는 두 가지 지표로 측정됩니다. PapersWithCode의 보고서 결과에 따르면 제로 샘플 추론에서 GPT-4o의 pass@1 점수는 90.2%입니다.


https://paperswithcode.com/sota/code- Generation-on-humaneval

위 논문에서 제안한 방법과 최소한의 즉각적인 미세 조정(다른 하이퍼 매개변수 조정 없음)을 사용하여 Llama 3.1 8B의 pass@k 점수가 크게 향상되었습니다.

반복된 샘플 수 k가 100이면 성능은 GPT-4o와 같습니다(90.5% 대 90.2%). k가 1000에 도달하면 점수는 95.1%로 GPT-4o보다 훨씬 좋습니다.


위 그림에서 2개의 좌표축을 failure@k 지시자(1-pass@k와 동일)를 사용하여 로그 변환하면 아래 그림과 같은 곡선을 볼 수 있는데, 이는 "스케일링 법칙"을 완벽하게 준수하는 것처럼 보입니다. ".


이 작은 실험은 논문을 엄격하게 재현한 것이 아니라 핵심 방법만 추출했다는 점에 주목할 필요가 있습니다.

그러나 이러한 결과는 추론 단계 확대를 위한 검색 방법을 사용할 때 더 작은 모델이 GPT-4o와 같은 "빅 맥" 모델보다 예상할 수 있는 성능을 능가할 수 있음을 강조합니다.

검색의 미래

검색 방법이 강력한 이유는 계산량이 증가함에 따라 "투명하게" 확장할 수 있고, 리소스 소비를 메모리에서 계산으로 전환하여 더 많은 리소스 균형을 달성할 수도 있기 때문입니다.

AI의 수준과 AI의 수준 등 최근 수학 분야에서 AI가 이룩한 주요 성과는 그에 사용되는 검색과 떼려야 뗄 수 없다.

그러나 검색을 구현하려면 먼저 결과에 대한 고품질 평가가 필요합니다. DeepMind의 모델은 자연어로 표현된 수학적 문제를 형식적인 표현으로 변환하여 Lean과 같은 컴파일러/검증자의 상세한 감독을 받습니다.

이는 병렬성과 자동화 수준을 크게 향상시킬 수 있습니다.

Curry-Howard-Lambek 서신에 따르면 컴퓨터 프로그램을 사용하여 수학적 증명과 코드 생성 결과를 자동으로 식별하고 평가하는 것이 상대적으로 쉽습니다.

그러나 유사한 접근 방식은 수학과 프로그래밍 이외의 영역에서는 실패할 수 있습니다. 예를 들어 "이메일 요약"과 같은 개방형 NLP 작업의 경우 효과적인 검색을 수행하기가 어렵습니다.

이러한 관점에서 검색은 평가의 하위 단계입니다. 특정 분야에서 생성 모델의 성능 향상은 평가 및 검색 기능에 정비례할 것으로 대략 예상할 수 있습니다.

이러한 목적을 달성하기 위해서는 반복 가능한 디지털 환경의 에이전트가 유망한 방향으로 보입니다.

참고자료:

https://modal.com/blog/llama-human-eval