소식

오픈 소스 대형 모델을 위한 ChatGPT 순간이 있나요?많은 기대를 모으고 있는 라마 3 405B가 곧 출시될 예정입니다.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

당초 23일 출시 예정이었던 대망의 라마3 405B가 등장한다.

Llama 3 시리즈의 최상위 모델인 405B 버전은 4,050억 개의 매개변수를 보유하고 있으며 현재까지 가장 큰 오픈 소스 모델 중 하나입니다.

어젯밤 이른 시간, META는 갑자기 라마 3.1-405B 평가 데이터를 유출했다. 일부 네티즌들은 "(모델 사전 유출)이 META의 오래된 전통이기 때문에 라마 3.1-70B 버전이 동시에 출시될 수도 있다"고 예측했다. .작년 라마 모델은 한 번 했어요.”

일부 분석가들은 Llama 3 405B가 단순히 인공 지능 기능의 또 다른 개선이 아니라고 믿고 있습니다. 오픈 소스 AI의 경우 “이것은 잠재력입니다.채팅GPT최첨단 AI가 진정으로 민주화되어 개발자의 손에 직접 전달되는 순간입니다.

다가오는 Llama 3 405B 발표에 대한 세 가지 예측

일부 분석가들은 데이터 품질, 모델 생태계, API 솔루션이라는 세 가지 관점에서 곧 출시될 Llama 3 405B 발표의 하이라이트를 예측했습니다.

첫째, Llama 3 405B는 특수 모델의 데이터 품질을 혁신할 수 있습니다.

전문적인 AI 모델 구축에 중점을 두는 개발자의 장기적인 과제는 고품질 교육 데이터를 얻는 것입니다. 더 작은 전문가 모델(1-10B 매개변수)은 종종 증류 기술을 활용하여 더 큰 모델의 출력으로 훈련 데이터세트를 강화합니다.그러나오픈AIGoogle Cloud와 같은 비공개 소스 거대 기업의 데이터는 심각하게 제한되어 있어 상용 애플리케이션이 제한됩니다.

라마 3 405B가 탄생했습니다. 독점 모델의 힘에 맞먹는 오픈 소스 거대 기업으로서 개발자가 풍부하고 제한되지 않은 데이터 세트를 생성할 수 있는 새로운 기반을 제공합니다. 이는 개발자가 Llama 3 405B의 정제된 결과물을 자유롭게 사용하여 틈새 모델을 훈련함으로써 전문 분야의 혁신 및 배포 주기를 크게 가속화할 수 있음을 의미합니다. 강력하고 오픈 소스 윤리적인 고성능 미세 조정 모델의 개발이 급증할 것으로 예상됩니다.

둘째, Llama 3 405B는 기본 모델부터 전문가 조합까지 새로운 모델 생태계를 형성할 것입니다.

Llama 3 405B의 출시는 AI 시스템의 아키텍처를 재정의할 수 있습니다. 모델의 엄청난 크기(4,050억 매개변수)는 모든 경우에 적용되는 단일 솔루션을 의미할 수 있지만 실제 힘은 계층적 모델 시스템과의 통합에 있습니다. 이 접근 방식은 특히 다양한 규모의 AI를 사용하는 개발자에게 반향을 일으킬 것입니다.

중소형 모델의 지원을 받는 Llama 3 405B가 백본 역할을 하여 보다 역동적인 모델 생태계로의 전환을 기대합니다. 이러한 시스템은 덜 복잡한 모델이 대부분의 처리를 처리하고 검증 및 오류 수정에 필요한 경우에만 405B 모델을 호출하는 추론적 디코딩과 같은 기술을 사용할 수 있습니다. 이는 효율성을 극대화할 뿐만 아니라 특히 이러한 작업에 최적화된 SambaNova RDU에서 실행할 때 실시간 애플리케이션에서 컴퓨팅 리소스와 응답 시간을 최적화하기 위한 새로운 길을 열어줍니다.

마지막으로 Llama 3 405B는 가장 효율적인 API를 놓고 경쟁합니다.

큰 힘에는 큰 책임이 따릅니다. Llama 3 405B의 경우 배포는 큰 과제입니다. 개발자와 조직은 모델 복잡성과 운영 요구 사항에 주의해야 합니다. Llama 3 405B 배포를 위한 가장 효율적이고 비용 효율적인 API 솔루션을 제공하기 위해 AI 클라우드 제공업체 간에 경쟁이 있을 것입니다.

이러한 상황은 개발자에게 다양한 플랫폼과 상호 작용하고 다양한 API가 이러한 대규모 모델을 처리하는 방법을 비교할 수 있는 고유한 기회를 제공합니다.이 분야의 승자는 계산 부하를 효과적으로 관리할 뿐만 아니라 모델 정확성을 희생하지 않거나 불균형적으로 증가하지 않는 API를 제공할 수 있는 사람이 될 것입니다.탄소 발자국

요약하면 Llama 3 405B는 AI 무기고의 또 다른 도구가 아니라 개방적이고 확장 가능하며 효율적인 AI 개발을 향한 근본적인 변화입니다. 분석가들은 틈새 모델을 미세 조정하든, 복잡한 AI 시스템을 구축하든, 배포 전략을 최적화하든 관계없이 Llama 3 405B의 출시가 사용자에게 새로운 지평을 열 것이라고 믿습니다.

네티즌들은 어떻게 생각하나요?

네티즌들은 LocalLLaMA 하위 레딧에 게시하고 4,050억 개의 매개변수를 포함하는 Meta Llama 3.1에 대한 정보를 공유했습니다. 여러 주요 AI 벤치마크에서 이 AI 모델의 결과를 보면 그 성능이 현재 리더인 OpenAI를 능가했습니다.GPT-4o, 오픈 소스 모델이 현재의 최첨단 폐쇄 소스를 능가할 수 있는 최초의 사례입니다.법학 석사모델.

벤치마크에서 볼 수 있듯이 Meta Llama 3.1은 GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem 및 winograd와 같은 여러 테스트에서 GPT-4o보다 성능이 뛰어납니다. 그러나 HumanEval 및 MMLU-에서는 GPT-4o보다 성능이 뛰어납니다. 사회적 과학적인 측면에서는 GPT-4o보다 뒤떨어져 있습니다.

펜실베이니아 대학교 와튼 스쿨의 부교수인 Ethan Mollick은 다음과 같이 썼습니다.

이러한 통계가 사실이라면 이번 주부터 최고의 AI 모델이 모든 사람에게 무료로 제공될 것이라고 해도 무방할 것입니다.

전 세계 모든 국가의 정부, 조직 및 기업은 다른 모든 사람과 동일한 AI 기능을 사용할 수 있습니다. 재미있을 것입니다.

일부 네티즌들은 Llama 3.1 모델의 몇 가지 주요 특징을 요약했습니다.

이 모델은 훈련을 위해 공개 소스의 15T+ 토큰을 사용하며 사전 훈련 데이터의 마감일은 2023년 12월입니다.

미세 조정 데이터에는 공개적으로 사용 가능한 명령 미세 조정 데이터 세트(Llama 3과 다름)와 1,500만 개의 합성 샘플이 포함됩니다.

이 모델은 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 포르투갈어, 스페인어 및 태국어를 포함한 여러 언어를 지원합니다.

일부 네티즌들은 오픈소스 모델이 GPT4o, 클로드 소네트 3.5 등 폐쇄소스 모델을 능가하고 여러 벤치마크에서 SOTA에 도달한 것은 이번이 처음이라고 말했다.