Llama 3.1 공식 출시: 4050억 매개변수 모델 오픈 소스 Xiao Zha: 오픈 소스를 끝까지 수행

2024-07-24

텍스트 | 덩용이(Deng Yongyi)와 저우신위(Zhou Xinyu)

편집자｜소젠순(Su Jianxun)

GPT-4o의 왕좌는 아직 따뜻하지 않았고, 샤오자는 오픈 소스 군대를 이끌고 그곳으로 달려갔다──

이전 소문대로 Meta는 미국 태평양 표준시 기준으로 7월 23일에 Llama 3.1을 공식 출시했습니다. 현재 오픈소스 분야에서 가장 널리 사용되고 성능이 뛰어난 대형 모델 시리즈입니다.

우연히도 출시 전날 Llama 3.1은 모델 정보 외에도 405B 모델에 대한 자석 링크도 포함되어 있었습니다.

Llama 3.1의 공식 발표 정보도 뉴스와 일치합니다. 8B, 70B, 405B의 세 가지 크기가 있으며 컨텍스트 길이가 128K로 늘어났습니다.

Meta에서 제공한 벤치마크 테스트 데이터에 따르면 가장 인기 있는 405B(4050억 매개변수)는 이미 성능 면에서 GPT-4 및 Claude 3.5와 비교할 수 있습니다.

△GPT-4와 Claude 3.5와의 비교

Yishui의 현재 최고 모델 앞에서 Llama 3.1은 두려워하지 않습니다.

△클로즈드 소스 모델과의 비교

△오픈소스 모델과의 비교

Llama 3.1의 출시는 최근 오픈 소스와 폐쇄 소스 경로 사이의 치열한 전투에서 이정표를 썼다고 말할 수 있습니다. 최고의 오픈 소스 모델이 최고의 폐쇄 소스 모델과 진정한 힘을 합쳤습니다.

“지금까지 오픈소스 대규모 언어 모델은 기능이나 성능 면에서 폐쇄형 모델에 비해 뒤처지는 경우가 대부분이었습니다. 이제 우리는 오픈소스가 주도하는 새로운 시대를 열고 있습니다.”

△최근 AI계에서 화제가 되고 있는 사진, 오픈소스 모델이 클로즈드소스 모델을 따라잡다

Meta는 또한 공식 릴리스에 92페이지 분량의 논문을 첨부하여 훈련 세부 사항을 공개했습니다.

Llama 3.1은 16,000개의 H100 블록을 사용하여 15조 개 이상의 토큰 데이터에 대해 훈련되었습니다. 사용된 사전 학습 데이터는 2023년 12월 기준입니다. 훈련 안정성을 보장하기 위해 현재 널리 사용되는 MoE(Mixed Expert Model) 아키텍처 대신 Transformer 모델 아키텍처만 조정에 사용됩니다.

이는 또한 Llama 3.1이 128K 컨텍스트 길이로 확장되더라도 짧은 컨텍스트 창의 고품질 출력을 유지할 수 있다는 사실로 이어집니다. 더 이상 "긴 텍스트 특수"가 아니라 "길고 짧음이 자유롭게" 가능합니다.

현재 이러한 규모의 교육에 도달한 대규모 오픈 소스 모델은 전 세계에 없습니다.

자세한 내용은 몇 시간 전 푸시에서도 자세히 소개했습니다. 여기서는 자세히 다루지 않겠습니다.

2024년에는 모델 훈련의 규모가 점점 커지면서 개발자들도 '막대한 훈련 비용을 지불한 대기업이 계속 오픈소스를 할 것인가?'라는 고민을 하게 된다.

결국 OpenAI는 과거로부터 배운 교훈입니다. 초기에는 오픈소스 정신을 고수했지만 GPT3.5가 대중화되고 상용화되면서 OpenAI는 더 이상 오픈소스가 아니며 폐쇄형 AI라는 조롱을 받습니다.

그러나 Llama 3.1이 출시되는 순간 Zuckerberg는 다음과 같이 다시 강조했습니다.

오픈소스를 끝까지 수행하라!

모델을 공개하는 것 외에도 Xiao Zha는 Meta가 오픈 소스여야 하는 이유와 오픈 소스가 개발자에게 유익한 이유를 설명하는 사려 깊고 이상적인 오픈 소스 선언문도 발표했습니다.

그는 미국과 중국이 치열한 AI 경쟁에 직면하고 있지만 오픈소스 경로를 선택하는 것이 여전히 단점보다 장점이 더 많다고 믿고 있다는 점에 주목할 필요가 있습니다.

좋아요, Llama 3.1은 이미 이렇습니다. 우리는 다시 질문해야 합니다. OpenAI와 GPT-5는 언제 나올까요?

다음은 "Intelligent Emergence"가 편집한 Zuckerberg의 공개 서한입니다.

"오픈소스 AI가 앞으로 나아갈 길입니다"

고성능 컴퓨팅 초기에 당시의 주요 기술 회사는 자체 비공개 소스 Unix 버전을 개발하는 데 막대한 투자를 했습니다. 당시에는 이러한 고급 소프트웨어를 개발하는 다른 방법을 상상하기 어려웠습니다.

그럼에도 불구하고 오픈 소스 Linux는 결국 인기를 얻었습니다. 처음에는 개발자가 원하는 방식으로 코드를 수정할 수 있었고 시간이 지남에 따라 더 저렴해졌고 폐쇄 소스 Unix보다 더 광범위한 생태계를 갖추고 더 많은 기능을 지원했기 때문입니다. . 오늘날 Linux는 클라우드 컴퓨팅의 업계 표준 기반이자 대부분의 모바일 장치를 실행하는 운영 체제이며, 우리 모두는 Linux의 우수성을 활용하고 있습니다.

인공지능도 비슷한 방식으로 발전할 것이라고 믿습니다. 오늘날 여러 기술 회사에서는 선도적인 비공개 소스 모델을 개발하고 있습니다. 그러나 오픈소스는 이러한 격차를 빠르게 해소하고 있습니다. 작년에 Llama 2는 최첨단 기술에 뒤처진 이전 세대 모델과만 비교할 수 있었습니다. 올해 Llama 3는 가장 발전된 모델과 경쟁하며 일부 영역에서 선두를 달리고 있습니다. 내년부터는 미래의 라마가 업계 최고 수준이 될 것으로 기대된다. 하지만 그 전에도 Llama는 이미 오픈 소스, 수정 가능성 및 비용 효율성 분야를 선도하고 있었습니다.

오늘 우리는 오픈 소스 AI를 업계 표준으로 만들기 위한 다음 단계를 밟고 있습니다. 업계 최초의 오픈 소스 AI 모델인 Llama 3.1 405B와 새롭게 개선된 Llama 3.1 70B 및 8B 모델을 출시할 예정입니다. 비공개 소스 모델에 비해 비용/성능이 더 우수할 뿐만 아니라 405B 모델이 오픈 소스라는 사실은 미세 조정 및 더 작은 모델 추출에 가장 적합한 선택이 될 것입니다.

이러한 모델을 출시하는 것 외에도 우리는 더 넓은 생태계를 성장시키기 위해 다양한 회사와 협력하고 있습니다. Amazon, Databricks 및 Nvidia는 개발자가 자신의 모델을 미세 조정하고 개선할 수 있는 전체 서비스 제품군을 출시합니다. Groq(AI 칩 스타트업)과 같은 혁신적인 회사는 모든 새로운 모델에 대해 지연 시간이 짧고 비용이 저렴한 추론 서비스를 구축했습니다.

이러한 모델은 AWS, Azure, Google, Oracle 등을 포함한 모든 주요 클라우드에서 사용할 수 있습니다. Scale.AI, Dell, Deloitte 등은 기업이 Llama를 배포하고 자체 데이터를 사용하여 맞춤형 모델을 교육할 수 있도록 지원할 준비가 되어 있습니다. 커뮤니티가 성장하고 더 많은 회사가 새로운 서비스를 개발함에 따라 우리는 함께 Llama를 업계 표준으로 만들고 AI의 이점을 모든 사람에게 제공할 수 있습니다.

Meta는 오픈소스 AI에 전념하고 있습니다. 오픈 소스가 사람들을 위한 최고의 개발 스택이라고 생각하는 이유, 오픈 소스 Llama가 Meta에 좋은 이유, 오픈 소스 AI가 전 세계에 좋은 이유, 그리고 이로 인해 오픈 소스 커뮤니티가 계속 유지되는 이유를 간략하게 설명하겠습니다.

오픈소스 AI가 개발자에게 좋은 이유

저는 전 세계의 개발자, CEO, 정부 관료들과 대화할 때 일반적으로 다음과 같은 몇 가지 주제를 듣습니다.

우리는 자체 모델을 훈련하고, 미세 조정하고 개선해야 합니다.

모든 조직에는 특정 데이터를 사용하여 훈련되거나 미세 조정된 다양한 규모의 모델을 통해 가장 잘 충족되는 다양한 요구 사항이 있습니다. 온디바이스 작업 및 분류 작업에는 더 작은 모델이 필요하고, 더 복잡한 작업에는 더 큰 모델이 필요합니다.

이제 귀하는 최첨단 Llama 모델을 사용하여 귀하의 데이터를 사용하여 계속 훈련한 다음 당사나 다른 누구도 귀하의 데이터를 볼 수 없도록 최적의 크기의 모델로 개선할 수 있습니다.

우리는 우리 자신의 운명을 통제해야 하며 폐쇄 소스 공급업체에 얽매이지 않아야 합니다.

많은 조직에서는 실행 및 제어할 수 없는 모델에 의존하고 싶어하지 않습니다. 그들은 폐쇄 소스 모델 제공자가 모델을 변경하거나, 사용 약관을 변경하거나, 심지어 서비스를 완전히 중단하는 것을 원하지 않습니다. 또한 그들은 특정 모델에 대한 독점권을 가진 단일 클라우드에 갇히는 것을 원하지 않습니다. 오픈 소스는 많은 회사 생태계에 호환되는 도구 체인을 제공하며 이들 사이를 쉽게 전환할 수 있습니다.

우리는 데이터를 보호해야 합니다.

많은 조직에서는 보호해야 하고 클라우드 API를 통해 폐쇄 소스 모델로 전송할 수 없는 민감한 데이터를 처리합니다. 다른 조직에서는 폐쇄 소스 모델 제공업체의 데이터를 신뢰하지 않습니다. 오픈 소스는 원하는 곳 어디에서나 모델을 실행할 수 있도록 하여 이러한 문제를 해결합니다. 오픈 소스 소프트웨어는 더 투명하게 개발되기 때문에 더 안전하다는 것이 널리 받아들여지고 있습니다.

효율적이고 저렴한 운영 모델이 필요합니다.

개발자는 사용자 대면 및 오프라인 추론 작업을 위해 GPT-4o와 같은 비공개 소스 모델을 사용하는 비용의 약 50% 비용으로 자체 인프라에서 Llama 3.1 405B에 대한 추론을 실행할 수 있습니다.

우리는 장기적인 표준이 될 수 있는 생태계에 베팅하고 있습니다.

많은 사람들은 오픈 소스가 폐쇄 소스 모델보다 빠르게 움직이는 것을 보고 있으며, 장기적으로 가장 큰 이점을 제공할 수 있도록 시스템이 구축된 아키텍처를 원합니다.

오픈소스 AI가 메타에 좋은 이유

Meta의 비즈니스 모델은 사람들을 위한 최고의 경험과 서비스를 구축하는 것입니다. 이를 위해 우리는 우리가 구축할 수 있는 것을 제한하는 경쟁사의 비공개 소스 생태계에 갇히는 대신 항상 최고의 기술에 액세스할 수 있도록 해야 합니다.

저의 형성 경험 중 하나는 Apple이 플랫폼에서 구축할 수 있도록 허용한 서비스에 따라 서비스가 제한된다는 것입니다. 개발자에게 세금을 부과하는 방식, 그들이 적용하는 자의적인 규칙, 출시를 막는 모든 제품 혁신 등을 보면, 우리가 최고의 제품 버전을 만들 수 있고 경쟁자가 우리가 만들 수 있는 것을 제한할 수 없다면 Meta와 다른 많은 회사들도 사람들을 위해 더 나은 서비스를 자유롭게 구축할 수 있을 것입니다. 철학적 수준에서 이것이 제가 AI 및 AR/VR 분야의 차세대 컴퓨팅을 위한 오픈 소스 생태계 구축을 그토록 강력하게 믿는 주된 이유입니다.

사람들은 오픈 소스 Llama가 기술적 이점을 포기할까봐 걱정되냐고 자주 묻습니다. 하지만 저는 이것이 몇 가지 중요한 이유를 무시하고 있다고 생각합니다.

첫째, 우리가 최고의 기술에 접근하고 장기간 폐쇄 소스 생태계에 갇히지 않도록 보장하기 위해 Llama는 툴링, 효율성 개선, 실리콘 최적화 및 기타 통합을 포함하는 완전한 생태계로 진화해야 합니다. 우리가 Llama를 사용하는 유일한 회사라면 생태계는 성장하지 않을 것이며 폐쇄 소스 Unix 변종보다 나을 수도 없을 것입니다.

둘째, 지능이 발전함에 따라 경쟁이 심화될 것으로 예상합니다. 즉, 그 시점에서 특정 모델을 공개하면 사람들은 더 큰 이점이 있는 다음 모델을 포기하지 않을 것입니다. 업계 표준이 되기 위한 Llama의 길은 일관된 경쟁, 효율성 및 세대를 거쳐 오픈 소스 세대를 거치는 모델을 통해서입니다.

셋째, Meta와 비공개 소스 모델 제공업체의 주요 차이점은 AI 모델에 대한 액세스를 판매하는 것이 우리의 비즈니스 모델이 아니라는 것입니다. 즉, Llama를 공개적으로 출시해도 비공개 소스 공급업체와 마찬가지로 수익, 지속 가능성 또는 연구 투자 능력이 손상되지 않습니다. (이것이 여러 폐쇄 소스 제공업체가 오픈 소스에 반대하여 정부에 로비를 벌여온 이유 중 하나입니다.)

마지막으로 Meta는 오픈 소스 프로젝트에서 오랜 역사와 성공을 거두었습니다. 우리는 오픈 소스 컴퓨팅 프로젝트를 통해 서버, 네트워크 및 데이터 센터 설계를 공개하고 설계에 따라 공급망을 표준화함으로써 수십억 달러를 절약했습니다. 우리는 생태계 혁신, PyTorch, React 등과 같은 오픈 소스 선도 도구의 혜택을 누리고 있습니다. 이 접근 방식은 우리가 장기적으로 고수할 때 항상 효과가 있었습니다.

오픈소스 AI가 세상에 좋은 이유

저는 긍정적인 AI 미래를 위해서는 오픈소스가 필요하다고 믿습니다. 인공지능은 인간의 생산성, 창의성, 삶의 질을 높이고 경제 성장을 가속화하는 동시에 의학 및 과학 연구를 발전시킬 수 있는 어떤 현대 기술보다 큰 잠재력을 가지고 있습니다.

오픈 소스는 전 세계 더 많은 사람들이 AI의 혜택과 기회에 접근할 수 있도록 보장하고, 권력이 소수 기업의 손에 집중되지 않고, 기술이 사회 전반에 더 균등하고 안전하게 배포될 수 있도록 보장합니다.

오픈 소스 AI 모델의 보안에 대한 논쟁이 계속되고 있으며, 내 견해로는 오픈 소스 AI가 다른 대안보다 더 안전할 것이라고 생각합니다. 저는 정부들이 오픈 소스를 지원하는 것이 세상을 더욱 번영하고 안전하게 만들 것이기 때문에 자신들에게 이익이 된다고 결론을 내릴 것이라고 생각합니다.

안전에 대한 제가 이해하는 바는 의도하지 않은 피해와 의도적인 피해라는 두 가지 유형의 피해로부터 보호해야 한다는 것입니다. 의도하지 않은 피해는 AI 시스템을 실행하는 사람이 그렇게 할 의도가 없었음에도 불구하고 AI 시스템이 피해를 입힐 수 있는 경우입니다.

예를 들어, 최신 AI 모델은 의도치 않게 좋지 않은 건강 관련 조언을 제공할 수 있습니다. 또는 보다 미래 지향적인 시나리오에서는 모델이 실수로 스스로 복제하거나 목표를 과도하게 최적화하여 인간에게 해를 끼칠 수 있다고 우려하는 사람들도 있습니다. 의도적인 피해는 악의적인 행위자가 피해를 입히려는 목적으로 AI 모델을 사용하는 경우를 말합니다.

의도하지 않은 피해에는 AI 시스템이 AI 시스템을 사용할 수십억 명의 사람들에게 미칠 영향부터 인류를 위한 가장 재앙적인 SF 시나리오에 이르기까지 사람들이 인공 지능에 대해 갖고 있는 대부분의 우려가 포함된다는 점은 주목할 가치가 있습니다. 이런 점에서 오픈소스는 시스템이 더 투명하고 광범위하게 검사될 수 있기 때문에 훨씬 더 안전해야 합니다.

역사적으로 오픈 소스 소프트웨어는 이러한 이유로 더 안전했습니다. 마찬가지로 Llama와 Llama Guard와 같은 보안 시스템을 사용하는 것이 비공개 소스 모델보다 더 안전할 수 있습니다. 결과적으로 오픈 소스 AI 안전에 대한 대부분의 논의는 의도적인 피해에 중점을 두고 있습니다.

우리의 안전 프로세스에는 모델이 출시되기 전에 위험을 완화한다는 목표에 따라 모델이 심각한 피해를 입힐 수 있는지 여부를 평가하는 엄격한 테스트와 레드팀이 포함됩니다. 모델은 오픈 소스이므로 누구나 직접 테스트할 수 있습니다.

이러한 모델은 이미 인터넷에서 사용할 수 있는 정보에 대해 학습되었다는 점을 기억해야 합니다. 따라서 피해를 고려할 때 출발점은 모델이 Google이나 기타 검색 결과에서 검색할 수 있는 정보보다 빠른지 여부가 해를 끼칠 가능성이 더 높은지 여부부터 시작해야 합니다.

의도적인 피해를 추론할 때 개인이나 소규모 행위자가 할 수 있는 일과 막대한 자원을 가진 국민 국가와 같은 대규모 행위자가 할 수 있는 일을 구별하는 것이 도움이 됩니다.

미래의 어느 시점에는 개별 악의적인 행위자가 AI 모델의 지능을 활용하여 인터넷에서 제공되는 정보를 통해 완전히 새로운 유형의 피해를 입힐 수 있습니다. 이 시점에서 AI의 안전에는 힘의 균형이 중요할 것입니다.

큰 플레이어가 작은 악당의 힘을 상쇄할 수 있도록 AI가 널리 배포되는 세상에 사는 것이 더 나을 것이라고 생각합니다. 이것이 바로 우리가 소셜 네트워크에서 보안을 관리하는 방법입니다. 더 강력한 AI 시스템은 종종 소규모 AI 시스템을 사용하는 덜 정교한 공격자의 위협을 식별하고 차단합니다.

보다 광범위하게 AI를 대규모로 배포하는 대규모 기관은 사회 전체의 보안과 안정성에 기여할 것입니다. 오픈소스를 통해 모든 사람이 유사한 모델에 액세스할 수 있는 한, 더 많은 컴퓨팅 리소스를 보유한 정부와 기관은 더 적은 컴퓨팅으로 악의적인 행위자를 확인할 수 있습니다.

다음 질문은 중국과 같은 막대한 자원을 보유한 국가의 위협에 미국과 민주주의 국가가 어떻게 대응해야 하는가입니다. 미국의 장점은 분권화와 오픈소스 혁신에 있습니다.

어떤 사람들은 중국이 우리 모델을 획득하는 것을 막기 위해 우리 모델을 차단해야 한다고 믿지만, 내 요점은 이것이 효과가 없으며 미국과 그 동맹국들에게 불이익을 줄 뿐이라는 것입니다. 우리의 적들은 USB 스틱에 있는 모델을 훔치는 것이 비교적 쉽고 대부분의 기술 회사의 운영 방식이 이를 훨씬 더 어렵게 만들지는 않습니다.

비공개 소스 모델만 있는 세상에서는 소수의 대기업과 지정학적 적들이 선도적인 모델에 접근할 수 있는 반면 스타트업, 대학, 중소기업은 기회를 놓치게 될 가능성이 가장 높습니다.

더욱이 미국의 혁신을 비공개 소스 개발로 제한하면 우리가 주도하지 못할 가능성이 높아집니다. 대신, 우리의 최선의 전략은 강력한 오픈 소스 생태계를 구축하고 선두 기업이 정부 및 동맹국과 긴밀히 협력하여 최신 발전을 최대한 활용하고 장기적으로 선점자 우위를 유지할 수 있도록 하는 것이라고 생각합니다.

미래의 기회를 고려할 때 오늘날의 선도적인 기술 기업과 과학 연구의 대부분이 오픈 소스 소프트웨어를 기반으로 구축되었다는 점을 기억하십시오. 우리가 함께 투자한다면 차세대 기업과 연구에서는 오픈소스 AI를 활용하게 될 것입니다. 여기에는 신생 스타트업뿐만 아니라 자체 최첨단 AI를 처음부터 개발할 자원이 없는 대학 및 국가의 사람들도 포함됩니다.

가장 중요한 것은 오픈 소스 AI가 이 기술을 활용하여 모든 사람을 위한 최고의 경제적 기회와 보안을 창출할 수 있는 세계 최고의 기회를 의미한다는 것입니다.

우리 함께 짓자

과거 Llama 모델의 경우 Meta가 자체적으로 개발한 후 더 넓은 생태계 구축에 너무 집중하지 않고 출시했습니다.

우리는 이번 출시를 통해 다른 접근 방식을 취하고 있습니다. 우리는 가능한 한 많은 개발자와 파트너가 Llama를 사용할 수 있도록 내부적으로 팀을 구성하고 있으며, 생태계 내 더 많은 기업이 고객에게 고유한 기능을 제공할 수 있도록 파트너십도 적극적으로 구축하고 있습니다.

나는 Llama 3.1의 출시가 대부분의 개발자가 주로 오픈 소스를 사용하기 시작하면서 업계의 전환점이 될 것이라고 믿으며, 이 접근 방식이 여기서만 성장하기를 바랍니다. 인공지능의 혜택을 전 세계 모든 사람에게 전달하기 위한 우리의 여정에 여러분도 함께 해주시기를 바랍니다.

Llama 3.1을 다운로드할 수 있는 링크는 다음과 같습니다: https://llama.meta.com/

MZ(마크 주커버그)

소통을 환영합니다

소식

Llama 3.1 공식 출시: 4050억 매개변수 모델 오픈 소스 Xiao Zha: 오픈 소스를 끝까지 수행

소개

내 연락처 정보