소식

오픈 소스 모델은 가장 강력한 폐쇄 소스 모델을 능가합니다. Llama 3.1은 AI 생태계를 전복시킬 수 있습니까? |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


저커버그는 오픈소스를 끝까지 추구하겠다고 다짐했다.

저자│수호이

편집자 │ 자오 지엔

라마 3.1이 드디어 출시되었습니다.

미국 현지 시간으로 7월 23일, Meta는 Llama 3.1을 공식 출시했습니다. 8B, 70B, 405B의 세 가지 크기가 포함되어 있으며 최대 컨텍스트가 128k로 증가되었습니다. Llama는 현재 오픈소스 분야에서 가장 많은 사용자와 가장 강력한 성능을 자랑하는 대형 모델 시리즈 중 하나입니다.

이 Llama 3.1의 주요 사항은 다음과 같습니다.

1. 8B, 70B, 405B의 세 가지 버전이 있으며, 그 중 405B 버전은 현재 가장 큰 오픈 소스 모델 중 하나입니다. 2. 이 모델에는 성능 면에서 기존 최고 AI 모델을 능가하는 4,050억 개의 매개변수가 있습니다. 보다 복잡한 작업과 대화를 처리할 수 있는 더 긴 컨텍스트 창(최대 128K 토큰) 4. 다중 언어 입력 및 출력을 지원하여 모델의 다양성과 적용 가능성을 향상시킵니다. 5. 특히 해결 능력이 뛰어납니다. 복잡한 수학 문제를 풀고 즉시 콘텐츠를 생성할 수 있습니다.

Meta는 공식 블로그에 다음과 같이 썼습니다. "오늘날 오픈 소스 대규모 언어 모델의 성능이 폐쇄 소스 모델에 비해 뒤처지는 것은 여전히 ​​정상입니다. 그러나 이제 우리는 오픈 소스가 이끄는 새로운 시대를 열고 있습니다. Meta 공개 출시 Llama 3.1 405B는 현재까지 모든 Llama 버전의 누적 다운로드가 3억 건이 넘는 세계 최초의 가장 크고 가장 강력한 오픈 소스 기반 모델입니다. 이것은 시작에 불과합니다.”

오픈 소스와 폐쇄 소스 사이의 논쟁은 기술 분야에서 항상 뜨거운 주제였습니다.

오픈 소스 소프트웨어는 보다 투명하고 유연하여 전 세계 개발자가 공동으로 코드를 검토, 수정 및 개선할 수 있도록 하여 기술의 급속한 혁신과 발전을 촉진합니다. 폐쇄형 소스 모델은 일반적으로 소프트웨어의 보안과 안정성을 보장하기 위한 전문적인 지원과 서비스를 제공할 수 있는 단일 회사 또는 조직에서 개발 및 유지 관리됩니다. 그러나 이 모델은 사용자 제어 및 사용자 정의 기능도 제한합니다.

지금까지는 비공개 소스 모델이 항상 약간 더 나았습니다. Llama 3.1이 출시될 때까지 계속되는 치열한 오픈 소스 및 비공개 소스 논쟁이 두드러졌습니다. 오픈 소스 모델이 마침내 비공개 소스 모델과 경쟁할 수 있게 되었습니다.

Meta에서 제공한 벤치마크 데이터에 따르면 가장 널리 사용되는 405B 버전은 성능 측면에서 이미 GPT-4 및 Claude 3와 비교할 수 있습니다. 그중 인간 평가(Human Evaluation)는 모델의 코드 이해 및 생성 능력, 추상적인 논리 문제 해결 능력을 평가하는 데 주로 사용됩니다. 다른 대형 모델과의 경쟁에서는 Llama 3.1 405B가 약간 더 나은 것으로 보입니다.


Llama 3.1은 GPT-4 및 Claude 3.5와 동등합니다. 출처: Meta

컴퓨터 과학 및 전기 공학 부교수이자 스탠포드 대학 인공 지능 연구소 소장인 Andrew Ng는 소셜 미디어에서 "오픈 소스에 대한 엄청난 공헌에 대해 Meta와 Llama 팀"을 칭찬했습니다. "더 길어진 컨텍스트 길이와 향상된 기능을 갖춘 Llama 3.1은 모든 사람에게 환상적인 선물입니다." 그는 "캘리포니아가 제안한 SB1047과 같은 어리석은 규제가 이와 같은 혁신을 방해하지 않기를 바랐습니다."라고 말했습니다.


Ng Enda의 소셜 미디어, 출처: X

Turing Award 수상자이자 Meta의 수석 인공 지능 과학자인 Yann LeCun은 The Verge의 Llama 3.1 성능 설명을 인용했습니다. Meta는 현재까지 가장 크고 최고의 오픈 소스 인공 지능 모델을 출시했습니다. Llama 3.1은 특정 벤치마크에서 좋은 성능을 발휘합니다. 테스트에서 이 모델을 능가했습니다. OpenAI 및 기타 경쟁사.


양리쿤 소셜미디어, 출처: X

흥미롭게도 어제 HugginFace와 GitHub에서 Llama 3.1의 405B 버전이 '도난'된 것으로 의심됩니다. 내부 고발자가 보낸 평가 데이터는 기본적으로 오늘 공식적으로 공개된 버전 정보와 일치합니다.

Meta의 창립자이자 CEO인 Mark Zuckerberg는 "오픈 소스 AI가 앞으로 나아갈 길입니다"라는 제목의 긴 기사를 직접 작성하여 개발자와 Meta에 대한 오픈 소스의 이점과 오픈 소스가 전 세계적으로 중요한 이유를 자세히 설명했습니다.

그는 올해 말까지 Meta AI가 가장 널리 사용되는 보조자로서 ChatGPT를 능가할 것이라고 예측했습니다.

그는 또한 이렇게 말했습니다.오픈소스를 끝까지 실천할 것을 다짐합니다.


"오픈 소스 AI가 앞으로 나아갈 길입니다"의 기사 일부, 출처 Meta

1.라마 3.1 제작

모델 아키텍처 측면에서 현재까지 Meta의 가장 큰 모델인 Llama 3.1은 15조 개 이상의 토큰 데이터에 대해 학습되었으며, 사전 학습 데이터는 2023년 12월까지 제공됩니다.

합리적인 시간에 이러한 대규모 훈련을 구현하고 원하는 결과를 달성하기 위해 Meta는 16,000개 이상의 H100 블록을 사용하여 전체 훈련 스택을 최적화했습니다. 405B는 이 규모로 훈련된 최초의 Llama 모델입니다.


Llama 3.1 텍스트 생성 프로세스의 변환기 모델 아키텍처, 출처: Meta

Meta는 학습의 안정성과 편의성을 극대화하기 위해 미세 조정을 위해 현재 널리 사용되는 Mixed Expert Model(MoE) 아키텍처 대신 표준 디코더 전용 Transformer 모델 아키텍처를 선택했습니다.

이러한 결정을 통해 Llama 3.1은 최대 128K의 컨텍스트 길이를 지원할 때 짧은 텍스트의 고품질 출력을 계속 보장할 수 있으므로 긴 텍스트에만 초점을 맞추는 대신 긴 텍스트와 짧은 텍스트를 유연하게 처리할 수 있습니다.

동시에 연구팀은 반복적인 사후 학습 방법을 구현하여 고품질의 합성 데이터를 생성하고 각 라운드의 감독 미세 조정 및 직접 선호도 최적화를 통해 모델의 다양한 기능을 개선했습니다. 이전 버전에 비해 Llama 3.1은 사전 훈련 및 사후 훈련 데이터의 양과 품질을 높이고 보다 상세한 전처리 및 관리 프로세스와 보다 엄격한 품질 보증 및 필터링 기술을 도입합니다.

언어 모델의 확장 법칙에 따라 Llama 3.1은 성능 면에서 동일한 훈련 절차를 사용하는 이전 소형 모델을 능가합니다.

Meta는 대규모 405B 모델의 실행 요구 사항에 대처하기 위해 모델 데이터를 16비트(BF16)에서 8비트(FP8)로 양자화하여 컴퓨팅 리소스에 대한 수요를 크게 줄이고 모델이 단일 서버 노드.

Llama 3.1 405B 모델의 명령 및 채팅 미세 조정 측면에서 개발팀은 높은 수준의 보안을 보장하는 동시에 사용자 명령에 대한 모델의 응답성, 실용성 및 품질을 향상시키기 위해 최선을 다하고 있습니다.

훈련 후 단계에서 팀은 사전 훈련을 기반으로 여러 차례의 조정을 수행했습니다. 각 라운드에는 SFT(감독된 미세 조정), RS(거부 샘플링) 및 DPO(직접 선호 최적화)가 포함됩니다.또한 팀은 합성 데이터 생성을 사용하여 대부분의 SFT 예제를 생성했습니다. 즉, 실제 데이터에만 의존하지 않고 알고리즘을 통해 생성된 데이터를 사용하여 모델을 훈련했습니다.

동시에 팀은 다양한 데이터 처리 방법을 사용하여 이 데이터를 필터링하여 최고의 품질을 보장하고 미세 조정된 데이터의 적용 범위를 확장합니다.

메타는 405B 모델을 70B, 8B 모델의 '교사 모델'로 활용해 다양한 업계 요구에 맞는 대형 모델에서 소형 맞춤형 모델을 추출하는 새로운 전략도 모색 중이다. 이러한 접근 방식은 GPT-4o mini의 전략과 일치합니다.즉, "먼저 크게 만들고 나중에 작게 만드세요"입니다.

전 OpenAI 창립 멤버 중 한 명인 Andrej Karpathy는 GPT-4o Mini에 대해 다음과 같이 언급한 적이 있습니다. "모델이 작아지기 전에 먼저 커져야 합니다. 모델을 이상적으로 만들기 위해 훈련 데이터를 (자동으로) 재구성하는 데 도움이 필요하기 때문입니다. 그는 이 방법이 대형 모델에 대한 지식의 깊이와 폭을 보다 실용적이고 저렴한 소형 모델로 효과적으로 전달할 수 있다고 지적했습니다.

오픈 소스 모델 경로의 선두주자로서 Meta는 Llama 모델을 위한 시설 지원에도 성실함을 보여왔습니다.

Llama 시스템은 외부 도구 호출을 포함하여 여러 구성 요소를 통합할 수 있는 포괄적인 프레임워크로 설계되었습니다. Meta의 목표는 개발자가 자신의 요구 사항에 맞는 맞춤형 제품을 유연하게 설계하고 만들 수 있는 보다 광범위한 시스템을 제공하는 것입니다.

모델 계층을 넘어 책임감 있게 AI를 발전시키기 위해 연구팀은 다국어 보안 모델 Llama Guard 3 및 프롬프트 주입 필터 Prompt Guard와 같은 여러 예제 애플리케이션과 새로운 구성 요소가 포함된 완전한 참조 시스템을 출시했습니다. 이러한 애플리케이션은 오픈 소스이며 커뮤니티에서 추가 개발이 가능합니다.

구성 요소 인터페이스를 더 잘 정의하고 업계에서 표준화를 촉진하기 위해 연구원들은 업계, 신생 기업 및 광범위한 커뮤니티와 협력하여 GitHub에 "Llama Stack" 제안을 게시했습니다. 이는 툴체인 구성요소(예: 미세 조정, 합성 데이터 생성) 및 에이전트 애플리케이션의 구성을 단순화하는 표준화된 인터페이스 세트입니다.

Meta에서 제공한 벤치마크 테스트 데이터에 따르면 Llama 3.1 405B는 NIH/Multi-needle 벤치마크에서 98.1점을 기록했으며 이는 성능 점수 측면에서 GPT-4 및 Claude 3.5와 비슷합니다. 405B 버전은 대용량 텍스트 정보를 통합하는 능력이 뛰어나며 ZeroSCROLLS/QuALITY 벤치마크 테스트에서 95.2점을 획득했습니다. RAG 성능을 걱정하는 AI 애플리케이션 개발자에게 매우 친숙합니다.


GPT4와 같은 비공개 소스 모델과 비교한 Llama 3.1, 출처: Meta


Mistral 7B Instruct와 같은 오픈 소스 모델과 비교한 Llama 3.1, 출처: Meta

Llama 3.1 8B 버전은 Gemma 2 9B 1T 및 Mistral 7B Instruct보다 훨씬 뛰어나며 이전 세대 Llama 3 8B에 비해 성능이 크게 향상되었습니다. 동시에 Llama 3.1 70B 버전은 GPT-3.5 Turbo를 능가했습니다.

Llama 팀의 공식 보고서에 따르면, 150개가 넘는 다국어 벤치마크 데이터 세트를 대상으로 해당 모델에 대한 심층적인 성능 평가와 광범위한 수동 테스트를 수행했습니다. 결과는 Llama의 최고 모델이 다양한 작업에서 GPT-4, GPT-4o 및 Claude 3.5 Sonnet과 같은 시중의 최고 기본 모델과 비교할 수 있음을 보여줍니다. 동시에 매개변수 척도가 유사한 폐쇄형 및 오픈소스 모델에 비해 소형 버전인 Llama도 강력한 경쟁력을 보여주었습니다.


2.오픈 소스 모델과 폐쇄 소스 모델 사이의 논쟁

오픈소스 모델이 클로즈드 소스 모델을 능가할 수 있을까?

이 문제는 지난해부터 논란이 됐다. 두 모델의 개발 경로는 서로 다른 기술 철학을 나타내며 기술 발전을 촉진하고 비즈니스 요구 사항을 충족하는 데 있어 각각 고유한 장점을 가지고 있습니다.

예를 들어 Llama 3.1은 연구원과 개발자가 소스 코드에 액세스할 수 있는 대규모 오픈 소스 모델이며, 사람들은 모델을 자유롭게 연구하고 수정하고 개선할 수도 있습니다. 이러한 개방성은 광범위한 협업과 혁신을 장려하여 다양한 배경을 가진 개발자들이 함께 작업하여 문제를 해결할 수 있도록 해줍니다.

반면 ChatGPT는 OpenAI가 개발한 비공개 소스 모델이지만 API 액세스를 제공하지만 핵심 알고리즘과 훈련 데이터는 완전히 공개되지 않습니다. GPT-3의 비공개 소스 특성은 상용화 과정에서 더욱 강력하게 만들어 주는 동시에 제어 가능성으로 인해 제품의 안정성과 보안이 보장되므로 기업이 민감한 정보를 처리할 때 더욱 신뢰할 수 있습니다. 그러나 이러한 폐쇄성은 외부 연구자가 모델을 완전히 이해하고 혁신하는 능력을 제한하기도 합니다.

지난해 5월 외신은 구글이 '우리에게는 해자가 없고 OpenAI도 마찬가지다. 우리가 여전히 논쟁을 벌이고 있는 동안 오픈소스가 조용히 우리 일자리를 빼앗았다'는 주제의 문서를 유출했다고 보도했다. Meta가 같은 해 오픈 소스 대형 모델 Llama 2를 출시한 후 Yang Likun은 Llama 2가 대형 언어 모델의 시장 구조를 바꿀 것이라고 말했습니다.

사람들은 Llama 시리즈 모델이 이끄는 오픈 소스 커뮤니티를 기대하고 있습니다. 이전에는 가장 발전된 비공개 소스 모델인 GPT-4가 항상 약간 더 나았지만 당시 Llama 3 간의 격차는 이미 매우 작았습니다.

대형 모델 분야에서 가장 권위 있는 목록은 체스의 ELO 포인트 시스템을 채택한 LLM 아레나(Large Model Arena)입니다. 기본 규칙은 사용자가 두 개의 익명 모델(예: ChatGPT, Claude, Llama)에게 질문을 하고 더 나은 답변을 제공하는 모델에 투표하도록 하는 것입니다. 더 나은 답변을 얻은 모델은 포인트를 받게 되며, 누적된 포인트에 따라 최종 순위가 결정됩니다. Arean ELO는 50만명의 투표 데이터를 수집했습니다.


대형 모델 순위 개요, 출처: LLM Arena

LLM Arena 순위에서는 현재 OpenAI의 GPT-4o가 1위를 차지하고 있습니다. 상위 10개 모델은 모두 비공개 소스입니다. 비록 순위에서는 여전히 비공개 소스 모델이 훨씬 앞서 있지만, 2024 바이두 AI 개발자 컨퍼런스에서 로빈 리가 말한 것처럼 오픈 소스와 비공개 소스 모델 간의 격차는 커지지 않고 실제로는 점차 좁아지고 있습니다.


WAIC 기간 동안 Robin Li는 "오픈 소스는 실제로 일종의 IQ 세금입니다."라고 말했습니다.출처: 바이두

오늘 Llama 3.1이 출시되면서 오픈 소스 모델은 마침내 폐쇄 소스 모델과 경쟁할 수 있게 되었습니다.

오픈 소스와 폐쇄 소스 모델 중 어느 것이 더 나은지에 대해 "Jiazi Guangnian"은 많은 AI 업계 실무자와 논의했습니다. 업계에서는 일반적으로 다음과 같이 생각합니다.개인의 입장에 따라 달라지는 경우가 많으며 단순히 흑백논리의 문제는 아닙니다.

오픈소스와 클로즈드소스의 문제는 순전히 기술적인 차이가 아니라 비즈니스 모델의 선택에 관한 것입니다. 현재 오픈소스든, 클로즈소스 대형 모델이든 완전히 성공적인 비즈니스 모델은 아직 발견되지 않았습니다.

그렇다면 오픈 소스 모델과 폐쇄 소스 모델 간의 기능 차이에 영향을 미치는 요인은 무엇입니까?

Weibo의 신기술 연구개발 책임자인 Zhang Junlin은 모델 역량의 성장 속도가 핵심 요소라고 지적했습니다. 모델 역량이 빠르게 성장한다는 것은 짧은 시간 내에 많은 양의 컴퓨팅 리소스가 필요하다는 것을 의미합니다. 이 경우 리소스 이점으로 인해 비공개 소스 모델이 더 많은 이점을 갖습니다. 반대로 모델 역량의 성장이 둔화되면 오픈소스와 클로즈드소스의 격차가 줄어들고 따라잡는 속도도 빨라질 것이다.

그는 향후 몇 년 동안 오픈 소스 모델과 폐쇄 소스 모델 간의 기능 차이가 "합성 데이터" 기술의 개발에 달려 있다고 믿습니다. 만약 "합성 데이터" 기술이 향후 2년 동안 상당한 진전을 보인다면, 둘 사이의 격차는 더 커질 수 있지만, 돌파구가 없다면 둘의 능력은 비슷한 경향이 있을 것입니다.

종합적으로 '합성 데이터'는 향후 대규모 언어 모델 개발의 핵심 기술이 될 것이다.

오픈 소스 또는 폐쇄 소스 자체가 모델의 성능을 결정하지 않습니다. 폐쇄 소스 모델은 폐쇄 소스이기 때문에 앞서지 않으며, 오픈 소스 모델은 오픈 소스이기 때문에 뒤처지지 않습니다. 반대로 모델은 선도적이기 때문에 폐쇄 소스를 선택하고, 선도적이지 않기 때문에 오픈 소스를 선택해야 합니다.

회사가 성능이 매우 뛰어난 모델을 만든다면 더 이상 오픈 소스가 아닐 수도 있습니다.

예를 들어, 프랑스 스타 스타트업인 Mistral, 가장 강력한 오픈 소스 7B 모델 Mistral-7B 및 최초의 오픈 소스 MoE 모델 8x7B(MMLU 70)는 오픈 소스 커뮤니티에서 가장 인기 있는 모델 중 하나입니다. 그러나 이후 Mistral에서 교육한 Mistral-Medium(MMLU-75)과 Mistral-Large(MMLU-81)는 모두 비공개 소스 모델입니다.

현재 최고 성능의 클로즈드소스 모델과 최고 성능의 오픈소스 모델은 모두 대기업이 장악하고 있으며, 대기업 중에서는 오픈소스 의지가 가장 강한 메타가 있습니다.OpenAI가 상업적 수익의 관점에서 오픈소스가 아니라면, Meta가 오픈소스를 선택하고 사용자가 무료로 사용해 볼 수 있도록 하는 목적은 무엇입니까?

지난 분기 재무 보고서에서 이 문제에 대한 Zuckerberg의 반응은 Meta의 AI 기술 오픈 소스가 기술 혁신을 촉진하고, 모델 품질을 개선하고, 업계 표준을 확립하고, 인재를 유치하고, 투명성을 높이고, 장기 전략 고려를 지원하는 것이라고 답했습니다.

이번에 Zuckerberg는 "Open Source AI Is the Path Forward"에서 "오픈 소스 AI가 개발자에게 좋은 이유"에 대해 자세히 설명했습니다.

전 세계의 개발자, CEO, 정부 관료와의 대화에서 나는 그들이 자신의 모델을 훈련하고, 미세 조정하고, 최적화해야 한다는 점을 강조하는 것을 자주 듣습니다.

모든 조직에는 고유한 요구 사항이 있으며, 다양한 규모의 모델을 이러한 요구 사항에 맞게 최적화하거나 특정 데이터로 교육하거나 미세 조정할 수 있습니다. 간단한 온디바이스 작업 및 분류 작업에는 더 작은 모델이 필요할 수 있으며, 더 복잡한 작업에는 더 큰 모델이 필요할 수 있습니다.

이제 귀하는 최첨단 Llama 모델을 사용하고 계속해서 자신의 데이터로 모델을 훈련한 후 나중에 이상적인 규모로 최적화할 수 있습니다. 당사나 다른 누구도 귀하의 데이터에 액세스할 수 없습니다.

우리는 폐쇄 소스 공급업체에 종속되지 않고 우리 자신의 운명을 통제해야 합니다.

많은 조직은 스스로 실행하고 제어할 수 없는 모델에 의존하고 싶어하지 않습니다. 그들은 비공개 소스 모델 제공업체가 모델이나 사용 약관을 변경하거나 서비스를 완전히 중단할 수도 있다고 우려합니다. 또한 그들은 특정 모델에 대한 독점권을 갖는 단일 클라우드 플랫폼에 갇히는 것을 원하지 않습니다. 오픈 소스는 많은 회사에 호환 가능한 도구 체인을 제공하므로 서로 다른 시스템 간에 쉽게 전환할 수 있습니다.

우리는 데이터를 보호해야 합니다.

많은 조직에서는 민감한 데이터를 처리하며 이 데이터가 클라우드 API를 통해 비공개 소스 모델로 전송되지 않도록 보호해야 합니다. 다른 조직에서는 폐쇄 소스 모델 공급자의 데이터 처리 접근 방식을 신뢰하지 않습니다. 오픈 소스는 원하는 곳 어디에서나 모델을 실행할 수 있도록 하여 이러한 문제를 해결하고, 개발 프로세스의 투명성으로 인해 더욱 안전한 것으로 널리 알려져 있습니다.

효율적이고 경제적인 운영 방법이 필요합니다.

개발자는 사용자 대면 및 오프라인 추론 작업에 적합한 GPT-4o와 같은 비공개 소스 모델을 사용하는 비용의 약 절반으로 자체 인프라에서 추론을 위해 Llama 3.1 405B 모델을 실행할 수 있습니다.

우리는 장기적인 표준이 될 것을 약속하는 생태계에 베팅하고 있습니다.

많은 사람들은 오픈 소스 모델이 폐쇄 소스 모델보다 빠르게 발전하는 것을 보고 자신이 구축한 시스템 아키텍처가 장기적으로 가장 큰 이점을 가져올 것이라고 기대합니다.

(메타엑스 계정의 표지 이미지)