소식

GPT-4o를 물리칠 수 있는 오픈 소스 모델을 만드는 방법 Llama 3.1 405B에 대한 모든 것이 논문에 기록되어 있습니다.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



기계 심장 보고서

머신하트 편집부

이틀 전에 '우연한 유출'이 있은 후 마침내 어젯밤에 Llama 3.1이 공식적으로 출시되었습니다.

Llama 3.1은 컨텍스트 길이를 128K로 확장하고 8B, 70B 및 405B의 세 가지 버전을 제공하며 다시 한번 단독으로 대형 모델 트랙에 대한 경쟁력 있는 표준을 높입니다.

AI 커뮤니티에서 Llama 3.1 405B의 가장 중요한 의미는 오픈 소스 기본 모델의 기능 상한선을 새로 고쳤다는 점입니다. Meta 관계자는 일련의 작업에서 그 성능이 최고의 폐쇄형 모델과 비슷하다고 말했습니다. 소스 모델.

아래 표는 현재 Llama 3 시리즈 모델이 주요 벤치마크에서 어떻게 작동하는지 보여줍니다. 405B 모델의 성능이 GPT-4o와 매우 유사하다는 것을 알 수 있다.



이와 동시에 메타는 'The Llama 3 Herd of Models'라는 논문을 게재해 지금까지의 라마 3 시리즈 모델에 대한 연구 내용을 공개했다.



논문 주소: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

다음으로 논문 내용을 살펴보겠습니다.

Llama3 종이 하이라이트

1. Llama 3.1 405B는 8K 컨텍스트 길이를 사용한 사전 학습 후 지속적인 학습을 위해 128K 컨텍스트 길이를 사용하고 여러 언어 및 도구 사용을 지원합니다.

2. 이전 Llama 모델과 비교하여 Meta는 사전 처리 및 사전 학습 데이터의 큐레이션 파이프라인은 물론 사후 학습 데이터의 품질 보증 및 필터링 방법을 강화했습니다.

Meta는 고품질 기본 모델 개발을 위한 세 가지 주요 수단, 즉 데이터, 규모 및 복잡성 관리가 있다고 믿습니다.

첫째, 이전 버전의 Llama에 비해 Meta는 사전 훈련과 사후 훈련에 사용되는 데이터의 양과 질 모두를 향상시킵니다. Meta는 약 15조 개의 다국어 토큰 모음에서 사전 훈련된 Llama 3을 사용했는데, 이는 1조 8천억 개의 토큰만 사용한 Llama 2와 비교됩니다.

이번에 훈련된 모델의 규모는 이전 Llama 모델보다 훨씬 큽니다. 주력 언어 모델은 사전 훈련에 3.8 × 10²⁵ 부동 소수점 연산(FLOP)을 사용하는데, 이는 Llama 2의 가장 큰 버전보다 거의 50배 더 ​​큽니다. .

스케일링 법칙에 따르면 Meta의 훈련 예산에 따라 현재 주력 모델은 이미 계산적으로 최적의 크기에 가깝지만 더 작은 모델에 대한 Meta의 훈련 시간은 계산적으로 최적의 길이를 훨씬 초과했습니다. 결과는 이러한 작은 모델이 동일한 추론 예산에 대해 계산적으로 최적인 모델보다 성능이 우수하다는 것을 보여줍니다. 포스트 트레이닝 단계에서 메타는 405B 플래그십 모델을 사용해 70B, 8B 모델 등 소형 모델의 품질을 더욱 향상시켰다.

3. 405B 모델의 대량 생산 추론을 지원하기 위해 Meta는 16비트(BF16)를 8비트(FP8)로 양자화하여 컴퓨팅 요구 사항을 줄이고 모델이 단일 서버 노드에서 실행될 수 있도록 합니다.

4. 15.6T 토큰(3.8x10²⁵ FLOP)에서 405B를 사전 훈련하는 것은 주요 과제입니다. Meta는 전체 훈련 스택을 최적화하고 16K 이상의 H100 GPU를 사용했습니다.

PyTorch 창립자이자 Meta 저명한 엔지니어인 Soumith Chintala가 말했듯이 Llama3 논문은 많은 멋진 세부 사항을 보여 주며 그 중 하나는 인프라 구축입니다.



5. 사후 학습에서 Meta는 감독된 미세 조정(SFT), 거부 샘플링 및 직접 선호도 최적화를 포함한 여러 라운드의 정렬을 통해 채팅 모델을 개선합니다. 대부분의 SFT 샘플은 합성 데이터에서 생성됩니다.

연구원들은 모델 개발 프로세스의 확장성을 극대화하기 위해 설계에서 몇 가지 선택을 했습니다. 예를 들어 훈련 안정성을 극대화하기 위해 전문가 모델을 혼합하는 대신 약간의 조정만으로 표준 밀도 Transformer 모델 아키텍처를 선택했습니다. 마찬가지로 안정성이 떨어지는 경향이 있는 복잡한 강화 학습 알고리즘 대신 SFT(Supervised Fine-Tuning), RS(Rejection Sampling) 및 DPO(Direct Preferred Optimization)를 기반으로 상대적으로 간단한 사후 학습 절차가 채택됩니다. 그리고 더 어려운 확장.

6. Llama 3 개발 프로세스의 일환으로 Meta 팀은 이미지 인식, 비디오 인식 및 음성 이해를 가능하게 하는 모델의 다중 모드 확장도 개발했습니다. 이러한 모델은 아직 활발하게 개발 중이며 아직 출시 준비가 되지 않았습니다. 그러나 이 논문에서는 이러한 다중 모드 모델을 사용한 예비 실험 결과를 제시합니다.

7. Meta는 개발자가 Llama 모델의 출력을 사용하여 다른 모델을 향상시킬 수 있도록 라이선스를 업데이트했습니다.

이 문서의 끝 부분에는 기여자의 긴 목록도 표시됩니다.





이러한 일련의 요소들이 마침내 오늘 Llama 3 시리즈를 탄생시켰습니다.

물론 일반 개발자의 경우 405B 규모의 모델을 어떻게 활용하는지는 난제이고 많은 컴퓨팅 리소스와 전문 지식이 필요합니다.

출시 후 Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud 및 Snowflake를 포함하여 최신 모델과 함께 작동하는 서비스를 제공하는 25개 이상의 파트너와 함께 Llama 3.1의 생태계가 준비되었습니다.



보다 자세한 기술적인 내용은 원본 논문을 참고하시기 바랍니다.