소식

Llama 3.1 마그네틱 링크가 예정보다 빨리 유출되었습니다!오픈 소스 모델 왕좌가 하루아침에 바뀌었고, GPT-4o를 능가했습니다.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개] 라마 3.1이 또 미리 유출됐네요! 개발자 커뮤니티는 다시 한 번 열광하고 있습니다. 가장 큰 모델은 405B이고, 8B와 70B 모델도 동시에 업그레이드되며, 모델 크기는 약 820GB입니다. 벤치마크 테스트 결과는 놀랍고 마그넷 링크가 전체 네트워크에 걸쳐 활발하게 순환하고 있습니다.

역사는 또 반복된다, 라마 3.1 405B가 미리 유출됐다!

이제 벤치마크와 마그넷 링크에 대한 소문이 퍼졌습니다.


메타는 가장 큰 405B 외에도 이번에 5월 초 출시한 8B, 70B 모델도 업그레이드해 컨텍스트 길이를 128K로 늘렸다.

이 시점에서 모델 버전은 공식적으로 Llama 3에서 Llama 3.1로 반복되었습니다.


마그넷링크에서 제공하는 정보에 따르면 신형 모델의 크기는 763.48GiB(약 ​​820GB)이다.


유출된 '벤치마크 테스트'를 보면 8B 소형 모델도 플레이할 수 있는 반면, 70B 모델의 성능은 여러 벤치마크에서 GPT-4o를 따라잡을 수 있다는 것을 알 수 있습니다.


개발자들은 테스트 결과를 보고 분노했습니다. 토폴로지 CEO인 Aidan McLau는 다음과 같이 외쳤습니다.

Llama 3-405B의 벤치마크가 사실이라면,

- 세계 최고의 모델이 되어보세요

- 누구에게나 조정 가능

- GPT-4o보다 저렴하다!


HyperWriteAI CEO Matt Schumer는 다음과 같이 예측합니다. 이는 확실히 오픈 소스 모델에서 SOTA가 될 것입니다. (심지어 70B도 GPT-4o와 경쟁할 수 있습니다. 이는 명령 미세 조정 전이라는 점은 말할 것도 없습니다.)

초당 330개의 토큰으로 실행되고 10배 더 저렴한 GPT-4o 수준 모델을 상상해 보세요. 정말 흥미롭습니다.

내일은 힘든 하루가 될 거예요!


그리고 Xiao Zha의 말은 운명의 일주일을 앞둔 조용한 순간인 405B의 도착을 암시했습니다.


많은 네티즌들이 온라인에서 OpenAI에게 '새 모델은 언제 출시되나요?'라고 묻고 있습니다.

내일 출시되는 Llama 3.1 제품군

유출된 모델카드에 따르면 라마 3.1은 23일 출시될 예정이다.

라이선스는 "Custom Commercial License"와 "Llama 3.1 Community License"입니다.


유출된 모델 카드: https://pastebin.com/9jGkYbXY

특히 다국어 대형 모델 Llama 3.1 시리즈는 8B, 70B 및 405B의 세 가지 매개변수 크기를 포함하여 사전 훈련되고 명령이 미세 조정된 생성 모델 세트입니다.

다국어 대화 사용 사례에 최적화된 지침 미세 조정 후 Llama 3.1 텍스트 전용 모델(8B, 70B, 405B).


영어 외에도 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 7개 언어를 지원할 수 있습니다.

보고서에 따르면 Llama 3.1의 새로운 기능에는 더 긴 컨텍스트, 다국어 입력 및 출력 지원, 개발자와 타사 도구의 통합이 포함됩니다.

벤치마크

GitHub(현재 404)의 벤치마크 그래프는 벤치마크 테스트에서 Llama 3.1의 뛰어난 성능을 보여줍니다.

구체적으로 벤치마크 사전훈련 모델의 벤치마크 평가에서는 Llama 3.1 405B가 일반 과제, 지식 추론, 독해 부문에서 최신 기록을 세웠다.

특히 MMLU 및 SQuAD 하위 벤치마크에서는 개선이 가장 뚜렷하게 나타났습니다.

동시에 Llama 3.1 8B 및 70B 매개변수 버전은 Llama 3에 비해 약간 개선되었습니다. 그러나 일부 지표에서는 70B Llama 3.1이 이전 세대만큼 좋지 않은 것으로 나타났습니다.


또한, 지시 미세 조정 모델에서는 Llama 3.1 405B가 사전 훈련된 모델보다 더 강한 것을 확인할 수 있습니다. 추론, 코딩, 수학, 도구 사용 및 다중 언어 벤치마크에서 그들은 미세 조정된 8B 및 70B 버전을 압도했습니다.

Llama 3.1 8B 및 70B 미세 조정 모델은 또한 여러 기능 작업에서 성능을 크게 향상시켰습니다.


일부 네티즌들은 다른 주요 모델의 벤치마크를 종합해 보면 클로드 3.5 소네트가 모든 벤치마크의 왕이라는 것을 알 수 있다.

Llama 3.1 405B 미세 조정 버전은 수학 벤치마크 MMLU Pro에서만 최고이며 73.3%의 점수로 모든 대형 모델을 능가합니다.

또한 405B는 GPQA(대학원 수준 전문 지식 및 추론), 수학, DROP(독해 이해), MGSM(다국어 수학), HumanEval(프로그래밍) 및 BBH(지식 평가) 벤치마크에서 GPT-4o와 동등합니다. .

게다가 405B는 최신 GPT-4o 미니 모델보다 훨씬 앞서 있습니다.


Llama 3.1은 최적화된 Transformer 아키텍처를 사용하는 자동 회귀 언어 모델입니다. 조정된 버전은 SFT 및 RLHF를 사용하여 안전에 대한 인간의 선호도를 일치시킵니다.

Llama 3.1 시리즈 모델의 경우 토큰 수는 사전 학습 데이터만 참조합니다.

모든 모델 버전은 추론의 확장성을 향상시키기 위해 GQA(Grouped Query Attention)를 사용합니다.

15T 토큰 훈련 데이터

Llama 3과 마찬가지로 Llama 3.1은 공개적으로 사용 가능한 소스에서 약 15조 개의 토큰에 대해 사전 훈련되었습니다.

미세 조정 데이터에는 공개적으로 사용 가능한 명령 데이터 세트와 2,500만 개 이상의 합성 샘플이 포함되며, 사전 학습 데이터는 2023년 12월까지 제공됩니다.



상업적 연구에 사용 가능

Llama 3.1은 상업용 및 연구용으로 다양한 언어 환경을 지원합니다.

지침을 통해 미세 조정된 텍스트 전용 모델은 채팅 도우미에 적합하고 사전 훈련된 모델은 다양한 자연어 생성 작업에 적용할 수 있습니다. Llama 3.1 모델 컬렉션은 모델 출력을 활용하여 합성 데이터 생성 및 모델 증류를 포함한 다른 모델을 개선하는 기능도 지원합니다.

사용법 및 규정, 사용정책 위반, Llama 3.1 커뮤니티 라이선스 금지 및 지원 언어는 범위를 벗어납니다.

그리고 팀은 Llama 3.1이 지원되는 8개 언어 외에도 더 넓은 언어 세트에 대해 교육을 받았다고 강조했습니다. 개발자는 커뮤니티 라이센스와 같은 정책을 준수하고 사용이 안전하고 책임감 있는 경우 이를 미세 조정하고 다른 언어에 적용할 수 있습니다.

3,930만 GPU 시간 훈련

사전 훈련 중에 Meta는 맞춤형 훈련 라이브러리, Meta 맞춤형 GPU 클러스터 및 생산 인프라를 사용합니다. 미세 조정, 주석 및 평가도 프로덕션 인프라에서 수행됩니다.

훈련에는 총 3,930만 GPU 시간의 컴퓨팅 시간이 사용되었으며, 하드웨어 유형은 H100-80GB(TDP는 700W)입니다.

학습 시간은 각 모델을 학습하는 데 필요한 총 GPU 시간이며, 전력 소비량은 전력 사용 효율성에 맞게 조정된 각 GPU 장치의 최대 전력 용량입니다.


훈련으로 인한 총 위치 기반 온실가스 배출량은 11,390톤의 이산화탄소 환산량(CO2eq)으로 추정됩니다.

메타는 2020년부터 온실가스 순배출량 제로를 유지하고 있으며, 전력의 100%가 재생 가능한 자원에서 생산되기 때문에 시장 벤치마크 기준 총 온실가스 배출량은 이산화탄소 환산 0톤임을 강조했다.


심각한 위험

메타는 주요 리스크에 대해서도 테스트를 진행했습니다.

CBRNE(화학, 생물학, 방사능, 핵 및 폭발성 물질) 유용성, 아동 안전 및 사이버 공격이 포함됩니다.

사이버 공격에서 팀은 LLM이 기술 수준과 속도를 포함하여 해킹 작업에서 인간의 능력을 향상시킬 수 있는지 조사했습니다.

이 연구는 특히 랜섬웨어의 공격을 받을 때 사이버 공격 작전에서 LLM이 자율 에이전트로 사용될 수 있는 능력을 평가하는 데 중점을 둡니다.

주요 목표는 이러한 모델이 인간의 개입 없이 독립적인 에이전트로서 복잡한 사이버 공격을 효과적으로 수행할 수 있는지 평가하는 것입니다.

네티즌들이 냄비를 튀기며 역사를 다시 목격하고 있다

마그넷 링크가 공개된 후 조급한 네티즌들이 직접 다운로드를 시작했지만 시간이 오래 걸릴 수 있습니다.


일부 네티즌들은 내일 라마 3.1 405B가 출시되어 역사를 다시 목격하기를 기다리고 있습니다!


오픈 소스와 폐쇄 소스 모델 간의 격차가 다시 좁아졌습니다.


누군가가 "9.11과 9.9 중 누가 더 크나요?"라는 고전적인 함정 질문을 테스트했는데 Llama 3.1-405B가 실제로 정확하게 대답했습니다.


"GPU 불량"의 경우 820GB는 노트북에서 실행하기가 너무 꺼려집니다.





참고자료:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756