소식

가장 강력한 오픈소스 대형 모델이 하루아침에 신이 되었습니다! Llama 3.1이 충격적으로 출시되었습니다. 진정한 범용 GPT-4 시대가 도래했습니다.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
저자: Zhi Dongxi 편집부

Zhidongxi는 어젯밤 Meta가 현재까지 가장 강력한 오픈 소스 모델의 출시를 발표했다고 7월 24일에 보고했습니다.라마 3.1 405B, 새롭게 업그레이드된 라마 3.1 70B, 8B 모델도 출시됐다.

Llama 3.1 405B는 다음의 컨텍스트 길이를 지원합니다.128K 토큰, 기반15조 토큰16,000개 이상의 H100 GPU이것은 Meta가 이 규모로 훈련한 최초의 Llama 모델입니다.

150개 이상의 벤치마크 테스트 세트를 기반으로 한 연구진의 평가 결과는 다음과 같습니다.Llama 3.1 405B는 GPT-4o와 함께 작동합니다., Claude 3.5 Sonnet 및 Gemini Ultra 및 기타 업계 헤드 모델.


강력한 성능 외에도 Meta 창립자이자 CEO인 Mark Zuckerberg는 비공개 소스 모델보다 비용과 성능이 더 우수하다는 점을 직접 뒷받침하는 기사를 발표하기도 했습니다.405B 오픈 소스 모델은 기업이 더 작은 모델을 미세 조정하고 교육하는 데 가장 적합한 선택이 될 것입니다

Meta AI는 Llama 3.1 405B에 대한 액세스를 발표하고 AI 사진 편집, AI 프로그래밍, VR/AR 장치 지능형 도우미와 같은 새로운 기능을 출시했습니다. 저커버그는 예측했다.Meta AI 도우미 사용량이 몇 달 안에 ChatGPT를 능가할 것입니다.


▲Meta AI는 Quest 헤드셋과 사용자 간의 실시간 오디오 및 비디오 상호 작용을 지원합니다.

메타의 오픈소스 생태계도 준비되어 있습니다. 메타와25개 이상의 파트너Llama 3.1 모델에는 Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure 및 Google Cloud 등이 포함됩니다.

현재까지 모든 Llama 모델 버전의 총 다운로드 수가 초과되었습니다.3억회, 주류 클로즈드 소스 모델에 해당하는 Llama 3.1 모델의 출시는 아마도 Meta가 전하고 싶은 오픈 소스 모델 이야기가 이제 막 시작되었음을 의미할 수도 있습니다...


모델 다운로드 링크:

https://llama.meta.com/

https://huggingface.co/meta-llama

논문 링크:

https://t.co/IZqC6DJkaq


▲Meta Llama 3.1 모델 논문 해석 요약

1. 405B 오픈 소스 모델은 GPT-4o에 대해 벤치마킹되었으며 25개 파트너가 준비되었습니다.

Meta는 150개가 넘는 벤치마크 데이터 세트의 성능을 평가한 결과 Llama 3.1 405B가 상식, 운용성, 수학, 도구 사용 및 다국어 번역과 같은 일련의 작업에서 GPT-4o, Claude 3.5 Sonnet 및 Gemini Ultra와 유사하다는 것을 확인했습니다. .


실제 시나리오에서 Llama 3.1 405B를 인간의 평가와 비교했으며전반적인 성능은 GPT-4o 및 Claude 3.5 Sonnet보다 우수합니다.


업그레이드됨라마 3.1 8B 및 70B또한 모델은 동일한 매개변수 크기의 모델보다 더 나은 성능을 발휘합니다. 이러한 작은 매개변수 모델은 동일한 128K 토큰 컨텍스트 창, 다중 언어, 향상된 추론 및 고급 도구 사용을 지원하여 고급 애플리케이션을 지원합니다.


Meta는 개발자가 처음으로 405B 매개변수 스케일을 포함한 Llama 모델의 출력을 사용하여 다른 모델을 개선할 수 있도록 라이선스를 업데이트했습니다.

동시에 Meta의 오픈소스 생태계는 더욱 확장되었으며 25개 이상의 회사가 새로운 Llama 3.1 모델을 출시했습니다.

안에,Amazon 클라우드 기술, Databricks 및 Nvidia 개발자가 자신의 모델을 미세 조정하고 교육할 수 있도록 지원하기 위해 전체 서비스 제품군이 출시되고 있습니다. AI 칩 스타트업 그로크(Groq) 등은 이번에 메타가 출시하는 모든 신모델에 대해 저지연, 저비용 추론 서비스를 구축했다.

동시에, 이 모델들은아마존 클라우드 기술, 마이크로소프트 애저, 구글 클라우드, 오라클주요 클라우드 플랫폼에서 서비스를 제공합니다.

AI 확장, Dell, DeloitteLlama와 같은 회사는 기업이 Llama 모델을 채택하고 자체 데이터를 사용하여 맞춤형 모델을 교육할 수 있도록 지원할 준비가 되어 있습니다.

Llama 3.1 405B는 가장 강력한 오픈소스 모델일 뿐만 아니라, 오픈소스와 폐쇄소스 간의 거리가 다시 한 번 크게 단축된 모델이 될 것으로 예상됩니다.

2. 훈련 스택을 완전히 최적화하고 모델을 확장 가능하게 만드는 데 집중합니다.

합리적인 시간 내에 연구자가 원하는 결과를 달성하면서 15조 개의 토큰을 기반으로 모델을 훈련할 수 있도록 Meta는 훈련 스택을 완전히 최적화했습니다.


위의 과제를 해결하기 위해 Meta는 모델 개발 프로세스를 확장 가능하고 보다 간단하게 유지하는 전략에 초점을 맞추기로 결정했습니다.

1. 연구자들이 선택한표준 디코더 전용 Transformer 모델 아키텍처MoE 하이브리드 전문가 모델을 사용하는 대신 작은 조정을 하면 훈련 안정성을 극대화할 수 있습니다.

2. 연구자들이 사용한반복적인 사후 훈련 절차 , 각 라운드에서 감독된 미세 조정 및 직접 선호도 최적화를 사용합니다. 이를 통해 모델은 모든 라운드에 대해 최고 품질의 합성 데이터를 생성하고 모든 기능의 성능을 향상시킬 수 있습니다.

이전 Llama 시리즈 모델과 비교하여 Meta는 사전 학습 및 사후 학습에 사용되는 데이터의 양과 품질을 향상시킵니다.이러한 개선 사항에는 다음이 포함됩니다.사전 학습 데이터에 대한 보다 신중한 사전 처리 및 관리 파이프라인을 개발하고, 더욱 엄격한 품질 보증을 개발하며, 학습 후 데이터에 대한 필터링 방법을 개발합니다.

대규모 언어 모델의 확장 법칙에서 예상한 대로 Meta의 새로운 주력 모델은 동일한 전략을 사용하여 훈련된 소규모 모델보다 성능이 뛰어납니다. Meta는 또한 405B 매개변수가 있는 모델을 사용하여 소규모 모델의 교육 품질을 개선했습니다.

동시에, 405B 매개변수 모델의 대규모 추론을 지원하기 위해 연구원들은 모델을 BF16에서 FP8까지 양자화하여 필요한 컴퓨팅 요구 사항을 효과적으로 줄이고 모델이 단일 서버 노드 내에서 실행될 수 있도록 했습니다.

지시 및 채팅 미세 조정 측면에서 연구원들은 사전 훈련된 모델 위에 여러 차례의 정렬을 수행하여 최종 모델을 생성했습니다. 각 라운드에는 감독된 미세 조정(SFT), 거부 샘플링(RS) 및 DPO(직접 선호 최적화) SFT 예제의 대부분은 모든 기능에 걸쳐 더 높은 품질의 합성 데이터를 생성하기 위해 합성 데이터 생성을 사용하여 생성됩니다.

또한 Meta는 다양한 데이터 처리 기술을 사용하여 이러한 합성 데이터를 최고 품질로 필터링하므로 새로운 모델이 기능 확장성에 걸쳐 데이터 볼륨을 미세 조정할 수 있습니다.

데이터 측면에서도 연구원들은 모든 기능을 갖춘 고품질 모델을 생성하기 위해 데이터 균형을 세심하게 조정했습니다. 예를 들어 짧은 컨텍스트 벤치마크에서 모델 품질을 유지하면 128K 컨텍스트 길이로 확장할 수 있습니다.

또한 Meta는 종합적인 출시도 발표했습니다.라마 시스템 . Llama 모델을 다루는 것 외에도 시스템에는 개발자가 기본 모델보다 강력한 맞춤형 제품을 개발하는 데 도움이 되는 여러 구성 요소 조정 및 외부 도구 호출도 포함됩니다.

Llama 시스템은 오픈 소스 새 구성 요소를 포함하여 다양한 새로운 구성 요소를 포함합니다.보안 도구 Llama Guard 3(다국어 보안 모델), Prompt Guard(즉시 주입 필터) 등이 있습니다. 서로 다른 구성 요소를 연결하기 위해 Meta는 타사 프로젝트가 Llama 모델을 더 쉽게 활용할 수 있도록 하는 표준 인터페이스인 Llama Stack API에 대한 의견 요청도 발표했습니다.

일반 개발자의 경우 405B 규모 모델을 사용하는 것은 여전히 ​​​​어려운 일이며 많은 컴퓨팅 리소스와 전문 지식이 필요합니다.

Llama 시스템을 기반으로 하는 생성적 AI 개발은 단순히 모델을 유도하는 것이 아니라 모든 사람이 405B 모델을 사용하여 실시간 및 배치 추론, 감독된 미세 조정, 특정 애플리케이션에 대한 모델 평가, 지속적인 작업을 포함하여 더 많은 작업을 완료할 수 있어야 합니다. 사전 훈련, 검색 강화 생성(RAG), 함수 호출, 합성 데이터 생성 등.

이는 현재까지 Meta가 출시한 모델 중 가장 큰 모델이며, 향후 더 많은 기기 친화적인 크기, 더 많은 모드, 에이전트 수준의 업데이트가 출시될 예정입니다.

삼,405B 대형모델 폭약개조메타 AI, Quest 지능형 음성 도우미업그레이드

이제 Meta가 소유한 여러 터미널(예:WhatsApp과 Meta AI 챗봇Zhongdu는 Llama 3.1 405B를 사용하기 시작했습니다.


Meta AI는 현재 7개의 새로운 언어를 지원합니다. 이번에 Meta는 주로 시각적 생성, 수학 및 코딩과 같은 분야에 초점을 맞춘 새로운 Meta AI 크리에이티브 도구를 출시합니다.

비주얼 생성 첫눈, Meta AI 출시"Imagine Me" 이미지 생성 프롬프트 기능, 사용자가 Meta AI 채팅에 "나를 상상해 보세요"라고 입력하고 "나를 왕족으로 상상해 보세요" 또는 "초현실적인 그림 속의 나를 상상해 보세요"와 같은 프롬프트를 추가하여 이미지를 생성하고 친구 및 가족과 공유할 수 있습니다.


Meta AI가 온라인 상태가 됩니다."AI로 편집하다" 이 기능을 통해 사용자는 마우스 클릭만으로 개체를 쉽게 추가하거나 제거할 수 있으며, "고양이를 코기로 변경"과 같이 이미지의 나머지 부분은 변경하지 않은 채 개체를 변경 및 편집할 수 있습니다. Meta AI는 또한 새로 생성된 이미지를 Facebook 게시물은 물론 Instagram, Messenger, WhatsApp과 같은 소셜 플랫폼에 추가하는 기능도 지원합니다.


수학 및 프로그래밍 분야에서 사용자는 단계별 설명과 피드백을 통해 수학 과제에 대한 도움을 받고, 디버깅 지원 및 최적화 제안을 통해 코드를 더 빠르게 작성할 수 있으며, 전문가의 안내를 통해 복잡한 기술 및 과학 개념을 마스터할 수 있습니다.


사용자는 Meta AI의 코딩 전문 지식과 이미지 생성 기능을 결합하여 처음부터 새로운 게임을 만들거나 클래식 게임을 새롭게 해석할 수 있습니다. 환상적인 아이디어를 현실로 바꾸고 사용자가 직접 게임을 미리 볼 수 있게 하는 데는 몇 분 밖에 걸리지 않습니다.

Meta AI가 다음에도 적합하다는 점은 언급할 가치가 있습니다.레이밴 메타 스마트 안경 , 다음 달 미국과 캐나다의 Meta Quest에서 실험 모드로 출시될 예정입니다. Meta AI는 Quest의 현재 음성 명령을 대체하여 사용자가 핸즈프리로 헤드셋을 제어하고, 질문에 대한 답변을 얻고, 실시간 정보에 대한 정보를 얻고, 날씨를 확인하는 등의 작업을 수행할 수 있도록 합니다.

사용자는 물리적 환경에서 보는 것에 대해 묻는 등 헤드셋에서 보는 뷰로 Meta AI를 사용할 수도 있습니다.

4. Zuckerberg의 공개 서한: 오픈 소스는 개발자, Meta 및 전 세계에 더 좋습니다.

라마 3.1 시리즈가 출시된 지 얼마 안 되었고, 공식 홈페이지에도 저커버그의 장문의 블로그가 동시에 오픈되면서 오픈소스 모델과 폐쇄소스 모델 사이의 화약 냄새가 더욱 강해졌다.


▲주커버그 공개서한 일부 스크린샷

처음에 Zuckerberg는 오픈 소스와 폐쇄 소스 모델 간의 격차가 점차 줄어들고 있다고 언급했습니다. 작년에 Llama 2는 이전 세대의 가장 발전된 비공개 소스 모델과 동등한 수준이었습니다. 올해 Llama 3는 일부 분야에서 가장 발전된 모델과 선두를 달리고 있습니다.

그는 내년부터 라마(Llama) 모델이 업계에서 가장 발전할 것으로 기대하고 있다. . 그리고 현재 Llama 시리즈 모델은 개방성, 수정 가능성 및 비용 효율성 측면에서 이미 선두 위치에 있습니다.

그는 자신의 블로그에서 오픈소스 AI가 개발자에게 왜 좋은지, 오픈소스 AI가 메타에게 왜 좋은지, 오픈소스 AI가 세상에 좋은 이유라는 세 가지 주요 질문에 직접적으로 클로즈드 소스 모델을 지적하며 답변했습니다.

첫째, 오픈소스 AI가 개발자에게 왜 좋은가요?

그는 개발자가 특정 요구 사항을 충족하기 위해 자신의 모델을 훈련하고 미세 조정해야 한다고 믿습니다. 개발자는 폐쇄된 공급업체에 얽매이기보다는 자신의 운명을 제어해야 하며, 개발자는 자신의 데이터를 효율적으로 보호해야 합니다. 실행 비용이 저렴한 모델, 개발자는 장기적인 표준이 될 생태계에 투자하기를 원합니다.

오픈소스 AI가 메타에게 주는 이점은 메타의 비즈니스 모델이 사람들을 위한 최고의 경험과 서비스를 구축하는 것이라는 점이다. 이를 위해서는 항상 최고의 기술에 접근할 수 있어야 하고 폐쇄성에 빠지지 않도록 해야 한다고 그는 믿는다. 경쟁자의 생태계.

동시에 오픈 소스 AI는 Meta가 Llama를 업계 표준이 될 가능성이 있는 완전한 생태계로 개발하도록 장려할 것입니다.

그는 또한 Meta와 비공개 소스 모델 플레이어의 주요 차이점 중 하나는 AI 모델에 대한 액세스를 판매하는 것이 Meta의 비즈니스 모델이 아니라는 점이라고 언급했습니다. 이는 오픈 소스가 수익, 지속 가능성 또는 연구 능력에 대한 지속적인 투자를 줄이지 않는다는 것을 의미합니다. .

마지막으로 Meta는 오픈 소스 프로젝트와 성공의 오랜 역사를 가지고 있습니다.

오픈소스 AI 모델의 안전성에 대한 논쟁에 대해 주커버그는 이렇게 말했습니다.오픈 소스 AI는 다른 옵션보다 안전합니다 . 그는 오픈소스를 통해 전 세계 더 많은 사람들이 AI가 가져다주는 혜택과 기회를 누릴 수 있고, 권력이 소수 기업의 손에 집중되지 않고, 기술이 사회 전반에 더욱 균등하고 안전하게 적용될 수 있다고 믿습니다.

결론: 메타는 또 다른 움직임을 보였고, 대형 모델의 공개 소스와 비공개 소스에 대한 논쟁이 바뀌었습니다.

오픈소스와 비공개소스 대형모델의 전쟁은 계속된다…

Meta Llama 3.1 시리즈 모델 출시를 통해 대규모 오픈 소스 모델과 폐쇄 소스 모델 간의 격차가 줄어들고 있으며, 서로 보조를 맞추며 따라잡는 경향이 강하다는 것을 알 수 있습니다. . 오픈소스 대형 모델 진영의 충실한 지지자이자 기술 혁신의 선구자로서 Meta는 Llama 모델 시리즈 출시 이후 자체 오픈 소스 생태계를 구축하기로 결심했습니다. 동시에 이전 Llama 모델과 비교하여 Meta는 가능한 많은 개발자와 파트너가 Llama 시리즈를 사용할 수 있도록 이번 새 모델 출시를 위한 내부 팀도 구성할 것입니다.

Meta는 오픈 소스와 폐쇄 소스 모델 논쟁의 결론을 더욱 혼란스럽게 만드는 또 다른 조치를 취했습니다. 그러나 최종 분석에서 실제 애플리케이션에서는 많은 기업과 개발자가 특정 요구 사항과 상황에 따라 오픈 소스 또는 폐쇄 소스 모델을 사용하도록 선택하므로 모델의 구체적인 기능과 적용 가능한 실제 모델을 입증하는 데 시간이 걸립니다. 생활 시나리오.