오픈 소스 = 가장 강력한 모델! Llama 3.1 출시, Zuckerberg: 분수령 moment

오픈 소스 = 가장 강력한 모델! Llama 3.1 출시, Zuckerberg: 분수령의 순간

2024-07-24

Baijiao는 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

단지,리마 3.1정식 출시, 대형모델 왕좌에 오르다!

150개가 넘는 벤치마크 테스트 세트에서 405B 버전의 성능은 기존 SOTA 모델 GPT-4o 및 Claude 3.5 Sonnet과 동일하거나 심지어 그 이상입니다.

즉, 이번에는가장 강력한 오픈소스 모델은 가장 강력한 모델이다。

이전에도 라마 3.1이 여러 차례 노출되고 유출됐는데, 지금은 꽤 오랫동안 기다렸다고 할 수 있다.

오늘부터 공식 홈페이지에서 해당 모델을 다운로드해 사용할 수 있으며, 온라인에서도 메타AI 애플리케이션을 사용해 볼 수 있다.

연구 커뮤니티에서 더욱 높이 평가되는 점은 사전 훈련 데이터, 필터링, 어닐링, 합성 데이터, 확장 법칙, 인프라, 병렬성, 훈련 등 Llama 3.1 생성 과정의 모든 것을 다루는 거의 100페이지에 달하는 상세한 논문이 공개되었다는 것입니다. 레시피, 훈련 후 적응, 도구 사용, 벤치마킹, 추론 전략, 정량화, 비전, 음성, 비디오...

HuggingFace의 수석 과학자는 다음과 같이 칭찬했습니다. 대형 모델을 처음부터 연구하기 시작했다면 이 논문을 읽어보세요.

샤오 자주커버그최근 Bloomberg와의 인터뷰에서 그는 특히 OpenAI를 조롱했습니다.

알트만의 리더십은 칭찬할 만하지만 OpenAI라는 회사가 폐쇄형 인공지능 모델 구축의 선두주자가 되었다는 점은 다소 아이러니합니다.

Xiao Zha는 특히 이에 대해 다음과 같은 긴 기사를 썼습니다.오픈소스 AI가 앞으로 나아갈 길이다。

과거에는 오픈 소스 모델이 성능, 기능 등의 측면에서 폐쇄 소스 모델에 비해 뒤처지는 경우가 많았지만 현재는 다음과 같습니다.

오픈소스 리눅스와 마찬가지로 폐쇄소스 시스템 사이에서 두각을 나타내며 인기를 얻으며 점차 발전하고 보안도 강화되었으며, 폐쇄소스 시스템보다 더 넓은 생태계를 갖고 있습니다.
저는 Llama 3.1이 업계의 전환점이 될 것이라고 믿습니다.

현재까지 모든 Llama 버전의 총 다운로드 횟수는 3억 회를 초과했으며 Meta는 다음과 같은 과감한 주장도 펼치고 있습니다.

이것은 시작에 불과합니다.

주요 클라우드 공급업체도 가능한 한 빨리 Llama 3.1에 대한 지원을 시작했으며 가격은 Jiang 이모의 가격입니다.

LIama 3.1 공식 출시

먼저 모델 기능을 살펴보겠습니다.

Llama 3.1은 컨텍스트 길이를 128K로 확장하고 8개 언어에 대한 지원을 추가합니다.

이 중 초대형컵 405B 버전은 상식, 기동성, 수학, 도구 활용, 다국어 번역 능력 등에서 기존 상위 모델을 동점으로 뛰어넘었다.

또한 8B 및 70B 모델의 업그레이드 버전도 출시되었으며 성능은 기본적으로 동일한 매개변수를 가진 상위 모델과 동일합니다.

다시 보자모델 아키텍처。

공식 소개에 따르면 15조 개가 넘는 토큰을 대상으로 Llama 3.1 405B 모델을 훈련시키는 것은 상당히 어려운 작업입니다.

이를 위해 전체 훈련 스택을 크게 최적화하고 모델 컴퓨팅 성능 규모를 처음으로 H100 GPU 16,000개 이상으로 확장했습니다.

특히, 우리는 여전히 표준 디코더 전용 Transformer 아키텍처를 채택하고 몇 가지 사소한 변경을 수행하며 각 라운드에서 SFT(감독 미세 조정) 및 DPO(직접 선호 최적화)를 사용하여 반복적인 사후 훈련 프로세스를 채택하여 각 라운드를 개선합니다. 능력 성과.

이전 버전의 Llama에 비해 사전 훈련과 사후 훈련에 사용되는 데이터의 양과 질이 향상되었습니다.

405B 크기 모델의 대량 생산 추론을 지원하기 위해 Meta는 모델을 16비트(BF16)에서 8비트(FP8) 값으로 양자화하여 필요한 컴퓨팅 요구 사항을 효과적으로 줄이고 모델이 단일 서버 노드 내에서 실행될 수 있도록 했습니다. .

존재하다명령어 미세 조정반면 Meta는 모델의 사용자 지시에 대한 응답 능력을 향상시키고 보안을 보장하면서 세부 지시 사항을 따르는 능력도 향상시킵니다.

학습 후 단계에서 Meta는 사전 학습된 모델을 기반으로 여러 차례의 정렬을 수행합니다.

각 라운드에는 SFT(Supervised Fine-Tuning), RS(Rejection Sampling) 및 DPO(Direct Preference Optimization)가 포함됩니다.

그들은 합성 데이터를 사용하여 대부분의 SFT 예제를 생성하고 여러 번 반복했습니다.

또한 이러한 합성 데이터를 최고 품질로 필터링하기 위해 다양한 데이터 처리 기술이 사용됩니다.

총 15T 토큰은 Llama 2 모델을 사용하여 정리 및 필터링되며, 코드 및 수학 관련 데이터 처리 파이프라인은 주로 Deepseek의 방법을 사용합니다.

즉각적인 단어에 따른 가장 기본적인 응답 외에도 일반 개발자라면 누구나 이를 사용하여 다음과 같은 고급 작업을 수행할 수 있다고 Meta 관계자는 말했습니다.

실시간 및 배치 추론
미세 조정 감독
특정 애플리케이션에 대한 모델 평가
지속적인 사전 훈련
검색 증강 생성(RAG)
함수 호출
합성 데이터 생성

그리고 그 뒤에는 강력한 생태학적 파트너의 지원이 있습니다.

Xiao Zha는 장문의 기사를 작성합니다: 오픈 소스 AI가 앞으로 나아갈 길

(아래 내용은 빅모델로 번역하여 주요 내용을 추출하였습니다. 누락된 부분이나 오류가 있으면 정정해주세요!)

고성능 컴퓨팅 초기에 당시 거대 기술 기업들은 자체적인 비공개 소스 Unix 버전을 개발하는 데 막대한 투자를 했습니다. 당시에는 이러한 고급 소프트웨어가 비공개 소스가 아닌 다른 방식으로 생산될 수 있다고 상상하기 어려웠습니다. 그러나 오픈 소스 Linux 운영 체제는 결국 광범위한 인기를 얻었습니다. 처음에는 개발자가 시간이 지남에 따라 코드를 자유롭고 저렴하게 수정할 수 있었기 때문에 Linux는 더욱 발전하고 안전해졌을 뿐만 아니라 폐쇄 소스 Unix보다 더 넓은 생태계를 구축했습니다. 시스템, 더 많은 기능을 지원합니다. 오늘날 Linux는 클라우드 컴퓨팅과 대부분의 모바일 장치 운영 체제의 업계 표준 기반이며, 그 덕분에 우리 모두는 더 나은 제품을 즐기고 있습니다.

인공지능도 비슷하게 발전할 거라 믿습니다 . 오늘날 여러 기술 회사에서는 선도적인 비공개 소스 모델을 개발하고 있습니다. 그러나 오픈소스는 그 격차를 빠르게 좁히고 있습니다. 작년에 Llama 2는 한 세대 뒤처진 모델과만 비교할 수 있었습니다. 올해 Llama 3는 가장 발전된 모델과 경쟁하며 일부 영역에서 선두를 달리고 있습니다. 내년부터 우리는 미래의 Llama 모델이 업계에서 가장 발전된 모델이 될 것으로 기대합니다. 그러나 그 이전에도 Llama는 이미 개방성, 수정 가능성 및 비용 효율성 측면에서 선두를 달리고 있었습니다.

오늘 우리는 다음을 향해 나아가고 있습니다.“오픈소스 인공지능이 업계 표준이 되다” 방향. 최초의 최첨단 오픈소스 AI 모델인 Llama 3.1 405B와 개선된 Llama 3.1 70B 및 8B 모델을 출시했습니다. 비공개 소스 모델에 비해 훨씬 더 나은 비용/성능 비율을 갖는 것 외에도 405B 모델의 개방성은 소형 모델을 미세 조정하고 증류하는 데 가장 적합한 선택이 될 것입니다.

이러한 모델을 출시하는 것 외에도 우리는 다양한 회사와 협력하여 더 넓은 생태계를 성장시키고 있습니다. Amazon, Databricks 및 Nvidia는 개발자가 자신의 모델을 미세 조정하고 정제할 수 있는 서비스 제품군을 출시합니다. Groq과 같은 혁신가들은 모든 새로운 모델에 대해 지연 시간이 짧고 비용이 저렴한 추론 서비스를 구축했습니다. 이러한 모델은 AWS, Azure, Google, Oracle 등을 포함한 모든 주요 클라우드 플랫폼에서 사용할 수 있습니다. Scale.AI, Dell, Deloitte 등과 같은 회사는 기업이 Llama를 채택하고 자체 데이터로 맞춤형 모델을 교육하도록 지원할 준비가 되어 있습니다. 커뮤니티가 성장하고 더 많은 회사가 새로운 서비스를 개발함에 따라 우리는 함께 Llama를 업계 표준으로 만들어 모든 사람에게 AI의 이점을 제공할 수 있습니다.

Meta는 오픈소스 인공지능에 전념하고 있습니다. 오픈 소스가 최고의 개발 스택이라고 생각하는 이유, 오픈 소스 Llama가 Meta에 좋은 이유, 오픈 소스 AI가 세상에 좋은 이유, 즉 장기적으로 지속 가능한 플랫폼인 이유를 간략하게 설명하겠습니다.

오픈소스 AI가 개발자에게 좋은 이유

전 세계의 개발자, CEO, 관계자와 대화할 때 일반적으로 다음과 같은 몇 가지 주제를 듣습니다.

우리는 자체 모델을 훈련하고, 미세 조정하고, 정제해야 합니다. . . 각 조직에는 고유한 요구 사항이 있으며 특정 데이터를 기반으로 교육하거나 미세 조정할 수 있는 다양한 규모의 모델을 사용하는 데 가장 적합합니다. 온디바이스 작업 및 분류 작업의 경우 더 복잡한 작업에는 작은 모델이면 충분하며 큰 모델이 필요합니다. 이제 귀하는 최첨단 Llama 모델을 활용하고, 귀하의 데이터로 계속 훈련한 다음, 당사나 다른 사람이 귀하의 데이터를 볼 수 없도록 허용하지 않고도 귀하의 요구에 가장 적합한 모델 크기로 정제할 수 있습니다.
우리는 우리 자신의 운명을 통제해야 하며 폐쇄 소스 공급업체에 얽매이지 않아야 합니다. . 많은 조직은 스스로 실행하고 제어할 수 없는 모델에 의존하고 싶어하지 않습니다. 그들은 폐쇄 소스 모델 제공자가 모델을 변경하거나, 이용 약관을 수정하거나, 심지어 서비스를 완전히 중단하는 것을 원하지 않습니다. 또한 그들은 하나의 클라우드 플랫폼에서만 모델을 독점적으로 사용하는 것으로 제한되기를 원하지 않습니다. 오픈 소스를 사용하면 기업의 광범위한 생태계가 호환 가능한 도구 체인을 보유할 수 있으므로 이들 사이를 쉽게 이동할 수 있습니다.
우리는 데이터를 안전하게 보호해야 합니다 . 많은 조직에서는 보호해야 하고 비공개 소스 모델의 클라우드 API를 통해 전송할 수 없는 민감한 데이터를 처리합니다. 폐쇄 소스 모델 제공업체의 데이터를 신뢰하지 않는 조직도 있습니다. 오픈 소스는 어디서나 모델을 실행할 수 있도록 하여 이러한 문제를 해결합니다. 오픈 소스 소프트웨어는 개발 프로세스가 더 투명하기 때문에 일반적으로 더 안전하다는 일반적인 믿음이 있습니다.
효율적으로 작동하고 합리적인 가격의 모델이 필요합니다. . 개발자는 GPT-4o와 같은 비공개 소스 모델을 사용하는 비용의 약 절반 비용으로 사용자 대면 추론 작업이든 오프라인 추론 작업이든 관계없이 자체 인프라에서 Llama 3.1 405B 추론을 실행할 수 있습니다.
우리는 장기적인 표준이 될 생태계에 투자하고 싶습니다. . 많은 사람들은 오픈 소스가 폐쇄 소스 모델보다 빠르게 움직이는 것을 보고 장기적으로 가장 큰 이점을 제공할 아키텍처에 시스템을 구축하기를 원합니다.

오픈소스 AI가 메타에 좋은 이유

Meta의 비즈니스 모델은 사람들에게 최고의 경험과 서비스를 제공하는 것입니다. 이를 위해 우리는 항상 최고의 기술에 접근할 수 있어야 하며 경쟁사의 비공개 소스 생태계에 얽매이지 않아 우리의 혁신 능력이 제한되지 않도록 해야 합니다.

제가 경험한 주요 경험 중 하나는 Apple 플랫폼에서 구축할 수 있는 항목에 대한 Apple의 제한으로 인해 우리 서비스가 제약을 받았다는 것입니다. 개발자에게 세금을 부과하는 방식부터 무작정 적용하는 규칙, 출시를 방해하는 모든 제품 혁신에 이르기까지 경쟁업체가 우리의 혁신을 제한할 수 없는 상태에서 최고의 제품 버전을 구축할 수 있다면 Meta와 다른 많은 회사들도 사람들에게 더 나은 서비스를 제공할 수 있을 것입니다. 철학적으로 이것이 제가 AI와 AR/VR 분야의 차세대 컴퓨팅을 위한 개방형 생태계 구축을 굳게 믿는 주된 이유입니다.

사람들은 종종 나에게 Llama를 오픈소스로 제공함으로써 기술적 이점을 포기하는 것이 걱정되는지 묻지만, 나는 이것이 여러 가지 이유로 더 큰 그림을 놓치고 있다고 생각합니다.

첫째, 우리가 최고의 기술에 접근하고 장기적으로 폐쇄 소스 생태계에 갇히지 않도록 하기 위해 Llama는 효율성 개선, 실리콘 최적화 및 기타 통합을 포함한 완전한 도구 생태계로 발전해야 합니다. 우리가 Llama를 사용하는 유일한 회사라면 생태계는 성장하지 않을 것이고 Unix의 폐쇄 소스 버전보다 더 나은 성과를 내지 못할 것입니다.

둘째, 나는 AI의 개발이 계속해서 매우 경쟁적일 것으로 예상합니다. 즉, 특정 모델을 오픈 소스로 제공한다고 해서 당시 차선책 모델에 비해 큰 이점을 제공하지 않는다는 의미입니다. 업계 표준이 되기 위한 Llama의 길은 경쟁력, 효율성 및 개방성을 지속적으로 유지하면서 세대를 거쳐 발전하는 것입니다.

셋째, Meta와 비공개 소스 모델 제공업체의 주요 차이점은 AI 모델에 대한 액세스를 판매하는 것이 우리의 비즈니스 모델이 아니라는 것입니다. 즉, Llama를 공개적으로 출시해도 수익, 지속 가능성 또는 연구 투자 능력이 손상되지 않습니다. 이는 비공개 소스 제공업체의 경우에는 해당되지 않습니다.

마지막으로 Meta는 오픈 소스 프로젝트와 성공의 오랜 역사를 가지고 있습니다. 우리는 Open Compute 프로젝트를 통해 서버, 네트워크 및 데이터 센터 설계를 출시하고 공급망에서 설계를 표준화함으로써 수십억 달러를 절약했습니다. 우리는 PyTorch, React 등과 같은 선도적인 도구를 오픈소스로 제공하여 생태계 혁신의 혜택을 누리고 있습니다. 이 접근 방식은 장기적으로 항상 우리에게 효과적이었습니다.

오픈소스 AI가 세상에 좋은 이유

저는 오픈소스가 긍정적인 AI 미래를 달성하는 데 매우 중요하다고 믿습니다. 인공 지능은 인간의 생산성, 창의성, 삶의 질을 높이고 경제 성장을 가속화하는 동시에 의학 및 과학 연구의 발전을 촉진할 수 있는 다른 어떤 현대 기술보다 큰 잠재력을 가지고 있습니다. 오픈 소스는 전 세계 더 많은 사람들이 AI의 혜택과 기회에 접근할 수 있도록 보장하고, 권력이 소수 기업의 손에 집중되지 않고, 기술이 사회 전반에 더 균등하고 안전하게 배포될 수 있도록 보장합니다.

오픈 소스 AI 모델의 안전성에 대한 논쟁이 진행 중이며, 제 생각에는 오픈 소스 AI가 다른 대안보다 안전할 것입니다.

나는 의도하지 않은 피해와 의도적인 피해라는 두 가지 유형의 피해로부터 보호해야 한다는 안전 프레임워크를 이해합니다. 의도하지 않은 피해란 AI 시스템을 실행하는 사람이 의도하지 않았음에도 불구하고 AI 시스템이 피해를 입힐 수 있는 경우를 말합니다. 예를 들어, 최신 AI 모델은 의도치 않게 좋지 않은 건강 관련 조언을 제공할 수 있습니다. 또는 보다 미래 지향적인 시나리오에서는 모델이 실수로 스스로 복제하거나 목표를 과도하게 최적화하여 인간에게 해를 끼칠 수 있다고 우려하는 사람들도 있습니다. 의도적인 피해는 악의적인 행위자가 피해를 입힐 의도로 AI 모델을 사용하는 경우를 말합니다.

의도하지 않은 피해에는 AI 시스템이 이를 사용하는 수십억 명의 사람들에게 미칠 영향부터 인류에게 실제로 재앙을 초래할 대부분의 공상 과학 시나리오에 이르기까지 사람들이 인공 지능에 대해 갖는 대부분의 우려가 포함된다는 점은 주목할 가치가 있습니다. 이런 점에서 오픈소스는 시스템이 더 투명하고 광범위하게 조사될 수 있기 때문에 더 안전해야 합니다. 따라서 역사적으로 오픈 소스 소프트웨어는 더 안전했습니다. 마찬가지로 Llama와 Llama Guard와 같은 보안 시스템을 사용하는 것이 비공개 소스 모델보다 더 안전하고 안정적일 것입니다. 결과적으로 오픈소스 AI의 안전성에 대한 대부분의 대화는 의도적인 피해에 초점을 맞춥니다.

우리의 안전 프로세스에는 출시 전 위험을 완화한다는 목표에 따라 모델이 심각한 피해를 입힐 수 있는 능력을 평가하는 엄격한 테스트와 레드팀이 포함됩니다. 모델이 공개되어 있기 때문에 누구나 직접 테스트할 수 있습니다. 이러한 모델은 이미 웹에 있는 정보를 기반으로 학습된다는 점을 기억해야 합니다. 따라서 피해를 고려할 때 출발점은 Google이나 다른 검색 결과에서 빠르게 검색할 수 있는 정보보다 모델이 더 많은 피해에 기여할 수 있는지 여부부터 시작해야 합니다.

미래의 기회를 고려할 때 오늘날의 선도적인 기술 기업과 과학 연구의 대부분이 오픈 소스 소프트웨어를 기반으로 구축되었다는 점을 기억하십시오. 우리가 함께 투자한다면 차세대 기업과 연구에서는 오픈소스 AI를 활용하게 될 것입니다.

가장 중요한 것은 오픈 소스 AI가 이 기술을 활용하여 모든 사람을 위한 경제적 기회와 보안을 극대화할 수 있는 세계 최고의 기회를 의미한다는 것입니다.

우리 함께 건설하자

과거 Llama 모델과 마찬가지로 Meta는 더 넓은 생태계 구축에 큰 관심을 기울이지 않고 스스로 개발하고 출시했습니다. 우리는 이번 출시에서 다른 접근 방식을 취했습니다. 우리는 가능한 한 많은 개발자와 파트너가 Llama를 사용할 수 있도록 내부적으로 팀을 구성하고 있으며, 생태계 내 더 많은 기업이 고객에게 고유한 기능을 제공할 수 있도록 파트너십도 적극적으로 구축하고 있습니다.

나는 믿는다Llama 3.1의 출시는 업계의 전환점이 될 것입니다. , 대부분의 개발자는 주로 오픈 소스를 사용하기 시작할 것이며 이 접근 방식은 앞으로도 계속 성장할 것으로 예상됩니다. 인공지능의 혜택을 전 세계 모든 사람에게 전달하기 위한 우리의 여정에 여러분도 함께 해주시기를 바랍니다.

최신 인터뷰 링크:
https://x.com/rowancheung/status/1815763595197616155

참조 링크:
[1]https://about.fb.com/news/2024/07/오픈소스-ai-는-앞으로-경로-포워드/
[2]https://ai.meta.com/blog/meta-llama-3-1/

소식

오픈 소스 = 가장 강력한 모델! Llama 3.1 출시, Zuckerberg: 분수령의 순간

소개

내 연락처 정보