소식

라마 3.1이 탄생했습니다!오픈소스 거대 기업이 최초로 폐쇄소스를 물리치고, 모두를 위한 GPT-4 시대가 온다

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개] 대형 모델의 패턴이 또 하루아침에 바뀌었다. Llama 3.1 405B는 여러 테스트에서 GPT-4o 및 Claude 3.5 Sonnet을 능가하며 그랜드 데뷔했습니다. 역사상 처음으로 오픈 소스 모델이 오늘날 가장 강력한 폐쇄 소스 모델을 물리쳤습니다. Xiao Zha는 대담하게 말했습니다: Linux가 마침내 승리한 것처럼 오픈 소스 AI도 확실히 승리할 것입니다.

오픈소스의 새로운 왕, Llama 3.1 405B가 어젯밤 공식 출시되었습니다!

여러 벤치마크에서 GPT-4o와 Claude 3.5 Sonnet을 모두 능가했습니다. 즉, 폐쇄 소스 SOTA 모델이 이미 오픈 소스 모델을 따라잡고 있는 것입니다.


하룻밤 사이에 Llama 3.1 405B는 세계에서 가장 강력한 모델이 되었습니다.

(동시에 온라인에는 70B 및 8B 모델의 새 버전도 있습니다)


LeCun은 Llama 3.1 모델 계열의 몇 가지 핵심 사항을 요약했습니다.

- 최고의 폐쇄 소스 모델에 필적하는 405B 성능

- 오픈 소스/웨이트 및 코드를 무료로 사용하여 미세 조정, 다른 모델로의 추출 및 어디서나 배포 가능

- 128k 컨텍스트, 다국어, 우수한 코드 생성 능력, 복잡한 추론 능력, 도구 활용 능력

- Llama Stack API를 사용하면 쉽게 통합할 수 있습니다.


이번 메타는 오픈소스 정신을 끝까지 구현하는 동시에 90페이지가 넘는 분량의 논문을 아낌없이 공개했다고 할 수 있다.

HuggingFace의 수석 과학자인 Thomas Wolf는 다음과 같이 칭찬했습니다. 대형 모델을 처음부터 연구하고 싶다면 이 논문이 필요합니다!

말 그대로 사전 훈련 데이터, 필터링, 어닐링, 합성 데이터, 확장 법칙, 인프라, 병렬 처리, 훈련 방법, 훈련 후 적응, 도구 사용, 벤치마킹, 추론 전략, 양자화, 비전, 음성 및 비디오 등 모든 것을 다룹니다.

AI2 연구원 Nathan Lambert는 이 90페이지 분량의 Llama 3.1 논문이 오픈 소스 모델의 발전을 3~9개월 앞당길 것이라고 추정합니다!


Meta CEO Xiao Zha는 다음과 같은 긴 기사를 자랑스럽게 썼습니다. 오픈 소스 인공 지능은 앞으로 나아갈 길입니다.


New York Times와의 인터뷰에서 Xiao Zha는 오픈 소스 AI를 지원합니다.

이 기사에서 Xiao Zha는 LLM 물결에서 Meta의 전환을 감정적으로 회상했습니다.

작년에 Llama 2는 약간의 구형 모델과만 비교할 수 있었습니다. 올해 Llama 3는 이미 일부 측면에서 가장 진보된 모델을 앞서고 있으며, 내년부터 미래의 Llama 모델은 가장 진보된 모델이 될 것입니다.

샤오자는 "오픈소스 라마로 인해 기술적 우위를 잃을까 봐 걱정되시나요?"라는 질문을 여러 번 받았다. 자신을 리눅스에 직접 비유했다.

그는 과거에는 거대 기술 기업들이 자신들의 유닉스 버전에 막대한 투자를 했지만 결국에는 오픈 소스 리눅스가 개발자들이 코드를 마음대로 수정할 수 있게 해주기 때문에 더 발전되고, 더 안전하고, 더 생태학적으로 더 광범위했기 때문에 승리했다고 말했습니다.

AI도 비슷한 방식으로 발전할 수밖에 없다.

이를 위해 Meta는 라이선스를 특별히 완화하여 개발자가 처음으로 Llama 3.1 모델의 고품질 출력을 사용하여 타사 AI 모델을 개선하고 개발할 수 있도록 했습니다.


네티즌: 새로운 시대가 시작된다

Llama 3.1이 공식적으로 해제된 후 전체 네트워크에 소란이 일어났습니다.

AI 마스터 Karpathy는 즉시 자신의 생각을 다음과 같이 표현했습니다.

오늘 405B 모델 출시로 GPT-4/Claude 3.5 Sonnet의 최첨단 대형 모델이 누구나 처음으로 사용하고 제작할 수 있도록 공개되었습니다. . 해당 가중치는 오픈 소스이며 상업적으로 라이센스가 부여되어 합성 데이터 생성, 증류 및 모델 미세 조정이 가능합니다.

이것은 Meta가 출시한 진정한 오픈 프론티어 LLM입니다. 또한 많은 모델 세부 정보가 포함된 92페이지 분량의 기술 보고서도 발표했습니다. https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


이 모델 출시 뒤에 숨은 철학은 Xiao Zha의 긴 기사에 자세히 설명되어 있습니다. 이 기사는 개방형 AI 생태계 세계관을 뒷받침하는 모든 주요 관점과 주장을 잘 다루기 때문에 읽을 가치가 있습니다.

오픈소스 AI가 미래입니다.

나는 LLM이 차세대 컴퓨팅 패러다임이 되기에는 아직은 1980년대와 마찬가지로 아직 초기 단계라고 자주 말했으며, Meta는 분명히 개방형 생태계의 리더로 자리매김하고 있습니다.

- 사람들은 이 모델에서 RAG를 프롬프트하고 사용합니다.

- 사람들은 모델을 미세 조정합니다.

- 사람들은 이를 특정 작업 및 응용 분야에 대한 더 작은 전문가 모델로 정제합니다.

- 사람들은 그것을 조사하고, 벤치마킹하고, 최적화합니다.

또한, 개방형 생태계는 모듈식으로 제품, 애플리케이션, 서비스로 자체 구성되며, 각 참여자는 자신의 고유한 전문 지식을 기여할 수 있습니다.

한 가지 예는 AI 칩 스타트업 Groq이 8B 모델에 대해 거의 즉각적인 추론을 달성할 수 있는 Llama 3.1 모델을 통합했다는 것입니다.

Karpathy는 서버 압박으로 인해 오늘날 가장 강력하고 빠른 대형 모델일 수 있는 Groq에서 실행되는 405B를 시험해 볼 수 없는 것 같다고 말했습니다.


그는 또한 비공개 소스 모델이 곧 따라잡을 것이라고 예상하고 기대하고 있습니다.

메타 연구원 Tian Yuandong은 새로운 시대가 시작되었다고 말했습니다! 오픈 소스 LLM은 이제 비공개 소스 LLM보다 동등하거나 더 좋습니다!


오픈소스 모델의 새로운 왕이 탄생했습니다.


OpenPipe의 창립자는 미세 조정된 Llama 3.1 8B를 테스트한 후 감격적으로 다음과 같이 말했습니다. 이렇게 작고 강력한 오픈 소스 모델은 지금까지 없었습니다. 모든 작업에서 GPT-4o mini보다 더 나은 성능을 발휘합니다!



NVIDIA 수석 과학자 Jim Fan은 GPT-4의 힘이 우리 손에 달려 있다고 말했습니다. 이것은 역사적인 순간입니다.


Pytorch의 아버지인 Soumith Chintala는 AI 모델 훈련의 인프라에 주목하는 사람이 거의 없으며 16,000개의 GPU로 구축된 시설에서는 실패도 발생할 것이라고 말했습니다.

시스템 안정성을 병렬화하고 유지하는 방법을 포함하여 이러한 세부 정보는 Llama 3.1 문서에 숨겨져 있습니다. Meta 팀이 모델 훈련에서 90%의 효과적인 훈련 시간을 달성했다는 점은 언급할 가치가 있습니다.



일부 네티즌들은 라마 모델의 반복 과정에서 GPU 사용량도 늘어나고 있다고 자세히 설명했습니다.

라마 1: 2048 GPU

라마 2: 4096 GPU

Llama 3.1: 16384 GPU(실제로 Llama 3는 24,000 GPU가 있는 2개의 클러스터에서 훈련되었습니다.)

라마 4:......


가장 강력한 오픈 소스 모델 제품군

실제로 어제 라마 3.1 시리즈 모델에 대한 몇 가지 핵심 사항이 기본적으로 망가져 있었습니다.

유출된 정보에 명시된 바와 같이 Llama 3.1은 8개 언어(영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어), 다국어 대화 에이전트, 번역 사용 사례 등을 지원할 수 있습니다.

컨텍스트 길이 측면에서 Llama 2 및 Llama 3에 비해 Llama 3.1 시리즈 모델의 모든 컨텍스트는 128K로 16배 증가했습니다.


Meta는 Llama 3.1이 도구 사용 측면에서도 개선되어 웹 검색, 수학 연산, 코드 실행 등 제로샷 도구 사용을 지원한다고 강조했습니다.

긴 맥락을 바탕으로 모델은 도구를 언제 사용해야 하는지 뿐만 아니라 도구를 어떻게 사용하고 결과를 해석하는지도 알 수 있습니다.

또한 Llama 3.1은 미세 조정을 통해 사용자 정의 도구를 호출할 때 뛰어난 유연성을 제공합니다.


주요능력

첫째, Llama 3.1은 "에이전트" 작업을 수행할 수 있는 시스템으로 실행될 수 있습니다.

- 작업을 세분화하고 다단계 추론을 수행합니다.

- 도구를 사용하다

- 내장 도구: 모델에는 검색이나 코드 해석기와 같은 도구에 대한 자체 지식이 제공됩니다.

- 제로샷 학습: 모델은 이전에 볼 수 없었던 상황별 도구 정의를 통해 도구를 호출하는 방법을 학습할 수 있습니다.

예를 들어, 모델에게 "이것은 CSV 파일입니다. 그 안에 무엇이 있는지 설명해 주실 수 있나요?"라고 질문합니다.

다음 사항을 인식합니다. 이 CSV 파일에는 수년간의 월별 인플레이션율이 포함되어 있으며 연도 열은 각 월별 인플레이션율 세트의 연도를 나타냅니다.


다음으로 시간에 따른 그래프를 그려달라고 요청할 수 있습니다.


다음으로 동일한 차트에 S&P500의 추세를 그리는 등 일련의 까다로운 작업을 완료할 수도 있습니다.


작업이 완료되면 차트 크기를 조정하여 다른 축에 정보를 추가할 수 있습니다.


위와 같이 Llama 3.1은 8개 언어를 지원하므로 다국어 번역이 가능합니다.

동화 헨젤과 그레텔(사탕집)을 스페인어로 번역하도록 할 수 있습니다.


더 복잡한 추론 질문에 직면하더라도 Llama 3.1은 쉽게 이길 수 있습니다.

"셔츠 3벌, 반바지 5벌, 드레스 1벌이 있어요. 10일간 여행을 갈 예정이에요. 휴가에 이 옷이면 충분할까요?"

AI는 알려진 조건을 분해해 상의, 반바지, 스커트에 대한 합리적인 매칭 계획을 상상해 상의를 더 가져오는 것이 가장 좋다고 제안한다.


추론이 완료된 후에는 더욱 자세한 여행 복장 가이드와 수하물 목록도 세심하게 제공했습니다.


AI가 코드를 직접 작성하도록 할 수도 있습니다.

예를 들어, 재귀적 역추적 알고리즘이나 깊이 우선 검색 알고리즘을 사용하여 사용자 정의 가능한 크기와 복잡성을 갖춘 완벽한 미로를 생성하는 프로그램을 만들 수 있습니다.

AI가 시작되자마자 미로 프로그램의 파이썬 코드에서 나왔다.


코드가 완성되면 AI가 자세한 설명도 해준다.


다음으로, 프로그램을 사용자 정의하려는 경우 AI 코드 도우미는 너비와 높이를 조정하는 해당 코드 제안을 제공합니다.


평가 결과

Llama3.1의 성능을 평가하기 위해 Meta는 테스트에 다국어를 포괄하는 150개의 벤치마크 데이터 세트를 포함했을 뿐만 아니라 실제 시나리오에서도 비교했습니다.

다양한 작업에서 405B는 GPT-4, GPT-4o 및 Claude 3.5 Sonnet과 같은 주요 비공개 소스 모델과 경쟁할 수 있습니다.


8B 및 70B 소형 모델은 유사한 매개변수 양을 갖는 폐쇄 소스 및 오픈 소스 모델에서도 좋은 성능을 보였습니다.

긴 상황별 작업 외에도 8B 및 70B 모델은 일반 작업, 코딩, 수학, 추론, 도구 사용 및 다중 언어에서 SOTA를 달성했습니다.


인간 평가에서 Llama 3.1 405B 모델은 GPT-4와 동등하지만 GPT-4o보다 약간 나쁩니다.

하지만 클로드 3.5 소네트와 비교하면 405B 대형 모델이 24.9%의 승률로 우위를 점하고 있다.


또한 Scale의 순위에서는 Llama 3.1 405B의 미세 조정 버전이 평가 후 지침에서 Claude 3.5 Sonnet과 GPT-4o를 압도했습니다.

수학 과제에서는 405B가 Claude 3.5 Sonnet에 이어 2위를 차지했습니다. 그러나 Llama 3.1은 코딩 작업에서 상대적으로 낮은 점수를 받았습니다.


92페이지 분량의 매우 상세한 기술 보고서

메타만큼 철저하게 소스를 오픈할 수 있는 사람은 없습니다. 92페이지 분량의 기술 보고서도 오늘 공개됩니다.


논문 주소: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

이 논문에서는 고품질 기본 모델인 Llama 3.1에 데이터, 규모, 복잡성 관리라는 세 가지 핵심 수단이 있다고 제안합니다.

데이터 측면에서, 이전 세대에 비해 Llama 3.1에서는 사전 훈련 데이터에 대한 보다 신중한 전처리 및 관리 파이프라인, 사후 훈련에 대한 보다 엄격한 품질 보증 및 필터링 방법 등 데이터의 총량과 품질이 개선되었습니다. 데이터.

Llama 2는 1.8T 토큰 데이터로만 사전 훈련된 반면, Llama 3.1의 다국어 사전 훈련 코퍼스는 8배 이상 증가한 15.6T 토큰에 도달했습니다.

규모 면에서 Llama 3.1의 훈련은 16,000개 이상의 NVIDIA H100 GPU를 사용하며 총 계산량은 3.8e25 FLOPS에 달하며 이는 Llama 2의 거의 50배입니다.

"규모 확장"을 보다 잘 달성하기 위해 이 논문에서는 "복잡성 관리" 측면을 구체적으로 제안합니다. 모델 아키텍처와 알고리즘을 선택할 때 안정성과 확장성에 더 많은 주의를 기울여야 합니다.

Llama 3.1은 가장 널리 사용되는 MoE 아키텍처가 아니라 디코더 전용 아키텍처의 고밀도 Transformer를 사용한다는 점에 주목할 가치가 있습니다. 학습 안정성을 극대화하기 위해 원래 Transformer 아키텍처만 수정 및 조정되었습니다.

유사한 접근 방식에는 더 복잡한 강화 학습 알고리즘 대신 SFT, RS 및 DPO와 같은 간단한 사후 훈련 프로세스를 사용하는 것이 포함됩니다.

많은 대형 모델과 마찬가지로 Llama 3의 개발에는 주로 사전 훈련과 사후 훈련이라는 두 단계가 포함됩니다.

사전 훈련 중에는 "다음 토큰 예측"도 훈련 목표로 사용됩니다. 먼저 컨텍스트 창을 8K로 설정한 다음 사전 훈련 단계에서 128K로 확장합니다.

훈련 후 단계에서는 여러 차례의 반복적인 인간 피드백을 통해 모델을 개선하여 코딩 및 추론 성능을 크게 향상시키고 도구 사용 기능을 통합합니다.

또한 이 논문에서는 Llama 3.1에 이미지, 비디오, 음성과 같은 다중 모드 기능을 추가하기 위해 세 가지 추가 단계를 사용하려고 시도합니다.

- 다중 모드 인코더 사전 학습: 이미지 인코더와 음성 인코더는 별도로 학습되며, 전자의 사전 학습 데이터는 이미지-텍스트 쌍인 반면, 후자는 자체 감독 방법을 사용하여 마스크된 부분을 재구성합니다. 이산화된 토큰 부분을 통한 음성.

- 비전 어댑터: 이미지 인코더의 표현을 사전 훈련된 언어 모델에 주입하는 일련의 교차 주의 레이어로 구성됩니다. 이미지를 기반으로 이 논문에서는 비디오-텍스트 쌍에 대한 비디오 어댑터를 훈련하려고 시도했습니다.

- 음성 어댑터: 음성 인코더와 언어 모델을 연결하고 "텍스트 음성 변환" 시스템도 통합합니다.


불행하게도 위에서 언급한 다중 모드 기능은 아직 개발 중이므로 새로 출시된 Llama 3.1에는 포함되지 않습니다.

모델 아키텍처

Llama 3.1은 여전히 ​​표준 Dense Transformer를 사용하며 Llama 및 Llama 2와 아키텍처에는 큰 차이가 없습니다. 성능 향상은 주로 훈련 데이터 품질 개선, 다양성 및 규모 확장에서 비롯됩니다.


Llama 3과 비교하여 Llama 3.1의 아키텍처는 다음과 같이 개선되었습니다.

- GQA(Grouped Query Attention): 8개의 키-값 헤더를 사용하여 추론 속도를 향상시키고 디코딩 중 KV 캐시를 줄입니다.

- 어텐션 마스크: 동일한 순서의 서로 다른 문서 간의 셀프 어텐션을 방지합니다.이 기술은 표준 사전 훈련에서는 효과가 제한적이지만 매우 긴 시퀀스에 대해 사전 훈련을 계속할 때 매우 중요합니다.

- 128K 토큰 어휘: 틱토큰의 100K와 영어 이외의 언어를 더 잘 지원하기 위한 추가 28K를 포함합니다.Llama 2에 비해 영어와 비영어권 모두에 대한 압축률이 향상되었습니다.

- RoPE의 하이퍼파라미터 θ를 500,000으로 설정: 긴 컨텍스트에 대한 지원 향상

모델의 주요 하이퍼파라미터는 표 3에 나와 있습니다. 데이터의 양과 훈련 컴퓨팅 성능을 기반으로 모델의 크기는 스케일링 법칙에서 밝혀진 컴퓨팅 성능 최적화에 도달했습니다.


병렬 효율성

16,000개의 GPU에서 405B 모델을 훈련시키는 것은 병렬성과 오류 처리를 고려한 것만으로도 이미 큰 프로젝트입니다.

모델 자체 외에도 이 문서에서는 학습 프로세스, 스토리지, 네트워크 및 기타 인프라에 사용되는 병렬화 체계에 대해서도 설명합니다.

Llama 3.1의 훈련은 4D 병렬성(텐서 + 파이프라인 + 컨텍스트 + 데이터)을 사용합니다. BF16 정확도에서 GPU 사용률(MFU)은 약 38%~41%입니다.


Llama 3.1 훈련 클러스터의 결함 처리도 매우 우수하여 유효 훈련 시간의 90% 이상에 도달했지만 이는 여전히 총 ​​54일의 사전 훈련 동안 매일 최소 한 번 중단이 발생했음을 의미합니다.

이 논문에는 419개의 모든 예상치 못한 중단에 대한 오류 원인이 자세히 나열되어 있으며(표 5), 이는 향후 GPU 클러스터 구성에 매우 중요한 참조 중요성을 갖습니다. 그 중 78%의 문제가 하드웨어 관련으로 확인되거나 의심되는 문제였습니다.


클러스터의 자동화된 운영 및 유지 관리는 비교적 완벽하므로 장애가 많더라도 대부분 자동으로 처리할 수 있습니다. 전체 프로세스 동안 수동 개입이 필요한 오류는 단 3건이었습니다.

특정 기능의 성능 향상

암호

모델의 코딩 능력을 향상시키기 위해 Meta는 코딩 전문가 교육, SFT 합성 데이터 생성, 시스템 프롬프트를 통한 향상된 형식 안내, 품질 필터 생성(교육 데이터에서 잘못된 샘플 제거)과 같은 방법을 사용합니다.


더 넓은 범위의 프로그래밍 언어로 SFT 데이터세트를 강화하기 위해 Llama 3를 사용하여 Python 코드(왼쪽)를 PHP 코드(오른쪽)로 변환


시스템 개선을 통해 코드 품질을 향상시킵니다.왼쪽: 시스템 프롬프트가 없습니다. 오른쪽: 시스템 프롬프트가 있습니다.

다국어

Llama 3의 다국어 기능을 향상시키기 위해 Meta는 더 많은 다국어 데이터를 처리할 수 있는 전문가를 특별히 교육하여 고품질 다국어 지시 미세 조정 데이터(예: 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어(영어, 스페인어 및 태국어) 다국어 온보딩의 특정 문제를 해결합니다.


수학적 추론

수학적 추론에 능숙한 훈련 모델은 힌트 부족, 실제 CoT 부족, 잘못된 중간 단계, 외부 도구를 사용하도록 모델을 가르쳐야 하는 필요성, 훈련과 추론의 차이 등 여러 가지 문제에 직면합니다.

이를 위해 Meta는 부족한 힌트 문제 해결, 훈련 데이터의 단계적 추론 과정 강화, 잘못된 추론 과정 필터링, 코드와 텍스트 추론 결합, 피드백과 오류로부터의 학습 등의 방법을 채택합니다.


긴 맥락

마지막 사전 훈련 단계에서 Meta는 Llama 3의 컨텍스트 길이를 8K 토큰에서 128K로 확장합니다.

실제로 팀은 SFT에 짧은 컨텍스트 데이터만 사용하면 모델의 긴 컨텍스트 기능이 크게 저하될 수 있으며 긴 컨텍스트를 읽는 것은 매우 지루하고 시간이 많이 걸리기 때문에 인간이 이러한 사례에 레이블을 지정하는 것은 비현실적입니다.

따라서 Meta는 이러한 격차를 메우기 위해 합성 데이터를 선택했습니다.

Llama 3의 초기 버전을 사용하여 (다중 라운드) 질문 응답, 긴 문서 요약, 코드 기반 추론과 같은 주요 긴 컨텍스트 사용 사례를 기반으로 합성 데이터를 생성했습니다.

도구 사용법

Meta는 검색 엔진, Python 해석기 및 수학 계산 엔진과 상호 작용하도록 Llama 3를 교육했습니다.

개발 과정에서 Llama 3가 점차 개선되면서 Meta도 수동 주석 프로토콜을 점차 복잡하게 만들었습니다. 단일 회전 도구 사용에 대한 주석으로 시작하여 대화의 도구 사용으로 이동하고 다단계 도구 사용 및 데이터 분석에 대한 주석으로 끝납니다.


Llama 3는 작업 해결을 위해 다단계 계획, 추론 및 도구 호출을 수행합니다.


제공된 파일을 기반으로 모델에 파일 내용 요약, 오류 찾아 수정, 코드 최적화, 데이터 분석 또는 시각화 등을 수행하도록 요청합니다.

사실의

LLM의 과제인 환각 문제에 대해 Meta는 환각 우선 접근 방식을 취합니다.

그들이 따르는 원칙은 모델을 훈련한 후 지식을 추가하는 것이 아니라 "알고 있는 것을 알아야" 한다는 것입니다.

기동성

Llama 3의 경우 Meta는 특히 응답 길이, 형식, 어조 및 페르소나/성격과 관련된 자연어 지침이 포함된 시스템 프롬프트를 통해 기동성을 향상합니다.


"당신은 바쁜 가족의 식사 계획 도우미 역할을 하는 유익하고 유쾌한 AI 챗봇입니다."

팀 구성원

Llama 3의 팀은 핵심 구성원만 약 220명, 기타 기여자는 312명으로 매우 규모가 크다고 할 수 있습니다.




Xiao Zha: 오픈소스 AI가 미래입니다

우리 모두 알고 있듯이 Xiao Zha는 항상 오픈 소스 AI의 충성스러운 지지자였습니다.

이번에는 새롭고 강력한 모델을 출시하는 것만큼 단순한 것이 아니라 오픈 소스 AI를 최전선으로 끌어들이겠다고 다짐하고 있습니다.


Xiao Zha는 자신의 블로그에서 과거의 주요 기술 회사들이 비공개 소스 Unix 버전 개발에 막대한 투자를 하여 직접적으로 교훈을 얻었습니다.

유닉스 전쟁터는 치열한 접전을 벌이고 있지만 마지막에 웃는 쪽은 오픈소스 리눅스다.


Linux는 개발자가 마음대로 코드를 수정할 수 있고 더 저렴하기 때문에 처음에는 개발자가 선호했습니다.

그러나 시간이 지나면서 그 어떤 폐쇄형 Unix보다 더 발전되고, 더 안전해졌으며, 더 넓은 생태계에서 더 많은 기능을 지원하게 되었습니다.

오늘날 Linux는 클라우드 컴퓨팅 및 대부분의 모바일 장치 운영 체제의 업계 표준이며 모든 사람이 혜택을 누릴 수 있습니다.

Xiao Zha는 AI의 발전 궤적도 동일할 것이라고 믿으며 '여러 기술 회사'의 비공개 소스 모델을 지적할 것입니다.


"오늘날 여러 기술 회사가 선도적인 폐쇄형 모델을 개발하고 있지만 오픈소스가 빠르게 그 격차를 줄이고 있습니다."

Xiao Zha의 대담한 이름은 그의 힘으로 자연스럽게 대담해졌습니다. 작년에 Llama 2는 여전히 최첨단 구세대 모델에 뒤처졌습니다.

올해 Llama 3는 성능 측면에서 다른 대형 모델과 경쟁할 수 있습니다.

Llama 3.1 405B는 최초의 최첨단 오픈 소스 AI 모델입니다. 폐쇄형 모델에 비해 비용 대비 성능이 훨씬 뛰어나며, 405B 모델의 개방성은 소형 모델을 미세 조정하고 정제하는 데 가장 적합합니다.

오픈소스 AI가 개발자에게 왜 좋은가요?

개발자에게는 오픈 소스 모델을 고수하면 다음과 같은 5가지 주요 이점이 있습니다.

첫째, 오픈 소스 모델을 통해 개발자는 자신의 모델을 자유롭게 훈련하고, 미세 조정하고, 정제할 수 있습니다.

각 개발자의 요구 사항은 다르며, 온디바이스 작업과 분류 작업에는 작은 모델이 필요하고, 보다 복잡한 작업에는 큰 모델이 필요합니다.

최첨단 오픈 소스 모델을 활용하여 개발자는 이상적인 크기로 정제된 자체 데이터로 계속 교육할 수 있습니다.

둘째, 단일 공급업체에 의한 제한을 피할 수 있습니다.

개발자는 자신이 실행하고 제어할 수 없는 모델에 의존하고 싶어하지 않으며 공급업체가 모델을 변경하거나 사용 약관을 수정하거나 서비스를 완전히 중단하는 것도 원하지 않습니다.

그리고 오픈 소스를 사용하면 모델을 쉽게 전환하고 배포할 수 있어 광범위한 생태계가 조성됩니다.

셋째, 데이터 보안을 보호합니다.

개발자는 중요한 데이터를 처리할 때 데이터 보안을 보장해야 하며, 이를 위해서는 API를 통해 비공개 소스 모델로 데이터를 보낼 수 없어야 합니다.

오픈 소스 소프트웨어는 일반적으로 보다 투명한 개발 프로세스로 인해 더 안전한 것으로 알려져 있습니다.

넷째, 효율적이고 저렴한 비용으로 운영됩니다.

Llama 3.1 405B를 실행하는 개발자의 추론 비용은 사용자 측 추론 작업이든 오프라인 추론 작업이든 GPT-4o의 절반에 불과합니다.

다섯째, 장기적 관점에서 오픈소스는 산업 전반의 표준이 될 것이다.

실제로 오픈 소스는 폐쇄 소스 모델보다 빠르게 발전하고 있으며 개발자는 장기적인 이점이 있는 아키텍처에 시스템을 구축할 수 있기를 원합니다.

Xiao Zha의 견해에 따르면 Llama 3.1의 출시는 업계의 전환점이 되어 오픈 소스를 점점 더 막을 수 없게 만들 것입니다.

참고자료:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32