소식

GPT4o 수준을 넘어선 오픈소스 모델 Llama 3.1 유출: 4,050억 개의 매개변수, 다운로드 링크 제공

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

GPU를 준비하세요!

드디어 라마 3.1이 등장했지만, 출처는 메타 공식이 아닙니다.

오늘, 새로운 Llama 모델의 유출 소식이 Reddit에 입소문을 냈습니다.기본 모델 외에도 8B, 70B의 벤치마크 결과와 최대 매개변수인 405B도 포함되어 있습니다.



아래 그림은 Llama 3.1 각 버전과 OpenAI GPT-4o, Llama 3 8B/70B의 비교 결과를 보여줍니다. 볼 수 있다,70B 버전도 여러 벤치마크에서 GPT-4o를 능가합니다.



이미지 출처: https://x.com/mattshumer_/status/1815444612414087294

분명히 버전 3.1의 8B와 70B 모델은 405B를 증류한 것이기 때문에 이전 세대에 비해 상당한 성능 향상이 있다.

일부 네티즌들은 이렇게 말했다.처음으로 오픈 소스 모델이 GPT4o 및 Claude Sonnet 3.5와 같은 폐쇄 소스 모델을 능가하여 여러 벤치마크에서 SOTA에 도달했습니다.



동시에 라마 3.1의 모델 카드가 유출되면서 세부 정보도 유출됐다(모델 카드에 표시된 날짜를 보면 7월 23일 출시 기준임을 알 수 있다).

누군가 다음과 같은 주요 내용을 요약했습니다.

  • 이 모델은 훈련을 위해 공개 소스의 15T+ 토큰을 사용하며 사전 훈련 데이터의 마감일은 2023년 12월입니다.
  • 미세 조정 데이터에는 공개적으로 사용 가능한 명령 미세 조정 데이터 세트(Llama 3과 다름)와 1,500만 개의 합성 샘플이 포함됩니다.
  • 이 모델은 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 포르투갈어, 스페인어 및 태국어를 포함한 여러 언어를 지원합니다.



이미지 출처: https://x.com/iScienceLuvr/status/1815519917715730702

현재 유출된 Github 링크는 404이지만, 일부 네티즌들이 다운로드 링크를 제공하고 있습니다(단, 안전을 위해 오늘 밤 공식 채널 발표를 기다려 주시길 권장드립니다):



다만, 수천억 규모의 대형 모델이므로 다운로드 전 충분한 하드디스크 공간을 준비하시기 바랍니다.



Llama 3.1 모델 카드의 주요 내용은 다음과 같습니다.

모델 기본 정보

Meta Llama 3.1 다국어 대형 언어 모델(LLM) 앙상블은 8B, 70B 및 405B 크기(텍스트 입력/텍스트 출력)의 사전 훈련되고 명령 미세 조정된 생성 모델 세트입니다. Llama 3.1 명령으로 미세 조정된 텍스트 전용 모델(8B, 70B, 405B)은 다국어 대화 사용 사례에 최적화되어 있으며 일반적인 업계 벤치마크에서 사용 가능한 많은 오픈 소스 및 비공개 소스 채팅 모델보다 성능이 뛰어납니다.

모델 아키텍처: Llama 3.1은 최적화된 Transformer 아키텍처 자동 회귀 언어 모델입니다. 미세 조정된 버전은 SFT 및 RLHF를 사용하여 유용성과 보안 기본 설정을 조정합니다.

지원되는 언어: 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어.

이는 모델 카드 정보를 통해 유추할 수 있다.Llama 3.1 시리즈 모델의 컨텍스트 길이는 128k입니다. . 모든 모델 버전은 추론 확장성을 향상하기 위해 GQA(Grouped Query Attention)를 사용합니다.







예상 사용량

의도된 사용 사례. Llama 3.1은 다국어 비즈니스 응용 프로그램 및 연구에 사용하도록 고안되었습니다. 명령 조정된 텍스트 전용 모델은 보조자와 같은 채팅에 적합한 반면, 사전 훈련된 모델은 다양한 자연어 생성 작업에 적용할 수 있습니다.

Llama 3.1 모델 세트는 모델 출력을 활용하여 합성 데이터 생성 및 증류를 포함한 다른 모델을 개선하는 기능도 지원합니다. Llama 3.1 커뮤니티 라이센스는 이러한 사용 사례를 허용합니다.

Llama 3.1은 지원되는 8개 언어보다 더 다양한 언어로 학습합니다. 개발자는 Llama 3.1 커뮤니티 라이센스 계약 및 허용 가능한 사용 정책을 준수하는 경우 지원되는 8개 언어 이외의 언어에 대해 Llama 3.1 모델을 미세 조정할 수 있으며, 그러한 경우 다른 언어가 사용되도록 보장할 책임이 있습니다. 안전하고 책임감 있는 태도 언어 라마 3.1.

소프트웨어 및 하드웨어 인프라

첫 번째는 훈련 요소입니다. Llama 3.1은 사전 훈련을 위해 맞춤형 훈련 라이브러리, Meta의 맞춤형 GPU 클러스터 및 생산 인프라를 사용합니다. 또한 생산 인프라에서 미세 조정되고 주석이 추가되고 평가됩니다.

두 번째는 훈련 에너지 소비입니다. Llama 3.1 훈련은 H100-80GB(TDP는 700W) 유형 하드웨어에서 총 3930만 GPU 계산 시간을 사용합니다. 여기서 훈련 시간은 각 모델을 훈련하는 데 필요한 총 GPU 시간이고, 전력 소비는 전력 효율성을 위해 조정된 각 GPU 장치의 최대 전력 용량입니다.

온실가스 배출에 관한 교육. Llama 3.1 훈련 기간 동안 지리적 벤치마크를 기반으로 한 총 온실가스 배출량은 CO2 환산량 11,390톤으로 추산됩니다. 2020년부터 Meta는 전 세계 운영 전반에 걸쳐 순제로 온실가스 배출을 유지하고 전력 사용량을 100% 재생 가능 에너지와 일치시켜 교육 기간 동안 총 시장 기준 온실가스 배출량이 0톤 CO2e에 달했습니다.

훈련 에너지 사용 및 온실가스 배출을 결정하는 데 사용되는 방법은 다음 문서에서 확인할 수 있습니다. Meta는 이러한 모델을 공개적으로 공개하기 때문에 다른 사람들이 에너지 사용 및 온실가스 배출을 교육하는 부담을 질 필요가 없습니다.

논문 주소: https://arxiv.org/pdf/2204.05149

훈련 데이터

개요: Llama 3.1은 공개 소스에서 얻은 약 15조 개의 토큰 데이터를 사용하여 사전 훈련되었습니다. 미세 조정 데이터에는 공개적으로 사용 가능한 명령 데이터 세트와 합성으로 생성된 2,500만 개가 넘는 예제가 포함됩니다.

데이터 최신성: 사전 학습 데이터의 마감일은 2023년 12월입니다.

벤치마크 점수

이 섹션에서 Meta는 주석 벤치마크에서 Llama 3.1 모델의 점수 결과를 보고합니다. 모든 평가를 위해 Meta는 내부 평가 라이브러리를 사용합니다.



보안 위험 고려 사항

Llama 연구팀은 안전한 미세 조정의 견고성을 연구할 수 있는 귀중한 리소스를 연구 커뮤니티에 제공하고 개발자에게 보안 AI를 배포하는 개발자의 작업을 줄이기 위해 다양한 애플리케이션에 대한 안전하고 강력한 기성 모델을 제공하기 위해 최선을 다하고 있습니다. 시스템 수량.

연구팀은 잠재적인 보안 위험을 완화하기 위해 공급업체에서 인간이 생성한 데이터와 합성 데이터를 결합하는 다각적인 데이터 수집 접근 방식을 사용했습니다. 연구팀은 고품질 프롬프트와 응답을 신중하게 선택하기 위해 다수의 LLM(대형 언어 모델) 기반 분류기를 개발하여 데이터 품질 관리를 강화했습니다.

Llama 3.1은 양성 프롬프트와 거부 톤의 모델 거부에 큰 중요성을 부여한다는 점을 언급할 가치가 있습니다. 연구팀은 보안 데이터 정책에 경계 프롬프트와 적대적 프롬프트를 도입하고 톤 지침을 따르도록 보안 데이터 응답을 수정했습니다.

Llama 3.1 모델은 독립형으로 배포하도록 설계되지 않았지만 필요에 따라 추가 "안전 가드레일"을 제공하여 전체 AI 시스템의 일부로 배포해야 합니다. 개발자는 에이전트 시스템을 구축할 때 시스템 보안 조치를 배포해야 합니다.

이 릴리스에는 더 길어진 컨텍스트 창, 다국어 입력 및 출력, 타사 도구와의 개발자 통합 등 새로운 기능이 도입되었습니다. 이러한 새로운 기능을 구축할 때 일반적으로 모든 생성 AI 사용 사례에 적용되는 모범 사례를 고려하는 것 외에도 다음 문제에도 특별한 주의를 기울여야 합니다.

도구 사용: 표준 소프트웨어 개발과 마찬가지로 개발자는 LLM을 자신이 선택한 도구 및 서비스와 통합할 책임이 있습니다. 사용 사례에 대한 명확한 정책을 개발하고 이 기능을 사용할 때 안전 및 보안 제한 사항을 이해하기 위해 사용하는 타사 서비스의 무결성을 평가해야 합니다.

다국어: Lama 3.1은 영어 외에 프랑스어, 독일어, 힌디어, 이탈리아어, 포르투갈어, 스페인어, 태국어 등 7개 언어를 지원합니다. Llama는 다른 언어로 텍스트를 출력할 수 있지만 이 텍스트는 보안 및 지원 가능성 성능 임계값을 충족하지 못할 수 있습니다.

Llama 3.1의 핵심 가치는 개방성, 포용성, 유용성입니다. 모든 사람에게 서비스를 제공하도록 설계되었으며 다양한 사용 사례에 적합합니다. 따라서 Llama 3.1은 모든 배경, 경험, 관점을 가진 사람들이 접근할 수 있도록 설계되었습니다. Llama 3.1은 불필요한 판단이나 규범을 삽입하지 않고 사용자와 그들의 요구에 중점을 두는 동시에 일부 상황에서는 문제가 될 수 있는 콘텐츠라도 다른 상황에서는 유용할 수 있다는 인식을 반영합니다. Llama 3.1은 모든 사용자의 존엄성과 자율성을 존중하며, 특히 혁신과 발전을 촉진하는 자유로운 사고와 표현의 가치를 존중합니다.

그러나 Llama 3.1은 새로운 기술이며 다른 새로운 기술과 마찬가지로 사용과 관련된 위험이 있습니다. 현재까지 실시된 테스트는 모든 상황을 다룰 수는 없으며, 다룰 수도 없습니다. 따라서 모든 LLM과 마찬가지로 Llama 3.1의 잠재적인 결과를 미리 예측할 수 없으며 경우에 따라 모델이 사용자 프롬프트에 부정확하거나 편향되거나 달리 불쾌하게 반응할 수도 있습니다. 따라서 Llama 3.1 모델의 애플리케이션을 배포하기 전에 개발자는 모델의 특정 애플리케이션에 대한 보안 테스트 및 미세 조정을 수행해야 합니다.

모델 카드 출처: https://pastebin.com/9jGkYbXY

참조 정보: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294