소식

OpenAI가 소형 모델과의 피비린내 나는 전투를 시작합니다!Apple의 DCLM이 Mistral 7B의 전체 오픈 소스를 무너뜨리며 강력한 데뷔를 했습니다.

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: Tao Zi Qiao Yang

[새로운 지혜 소개] 소형 모델의 시대가 왔는가? OpenAI는 GPT-4o mini로 처음으로 소형 모델 전장에 진출했습니다. Mistral AI와 HuggingFace가 이번 주에 소형 모델을 차례로 출시했습니다. 오늘 Apple은 Mistral-7B보다 성능이 뛰어난 70억 매개변수 소형 모델 DCLM도 출시했습니다.

소형 모델들의 전쟁터가 곧 시작됩니다!

GPT-4o mini와 Mistral NeMo 출시에 이어 Apple도 게임에 뛰어들었습니다.

DCLM 소형 모델에는 70억과 14억이라는 두 가지 매개변수 크기가 포함되어 있으며 출시 시 오픈 소스로 제공됩니다. 최대 매개변수인 70억개는 미스트랄-7B를 능가하며 성능은 라마3, 젬마에 가깝다.


Apple ML 팀의 연구 과학자(DCLM 개발자이기도 함)인 Vaishaal Shankar에 따르면 이는 현재까지 가장 성능이 좋은 "진정한 오픈 소스" 모델입니다. 이 모델은 가중치와 훈련 코드를 가질 뿐만 아니라 개방형을 기반으로 합니다. 데이터 세트 DCLM-Baseline.


모델 성능에 비해 DCLM의 '리얼 오픈소스' 모델이 더욱 눈길을 끈다.

대조적으로, 대부분의 거대 기술 기업은 비공개 모델에만 참여하거나 "여전히 비파를 들고 얼굴을 반쯤 가리고 있습니다."


또한 Shankar는 모델 중간 체크포인트와 최적화 상태가 앞으로도 계속 온라인 상태를 유지할 것이라고 예측했습니다.


이것이 LLM 오픈소스 커뮤니티의 봄이 아닐까?


DCLM 시리즈는 완전 오픈 소스입니다.

현재 HuggingFace에는 모든 모델 가중치가 공개되어 있으며, 모델 카드에는 기본적으로 주요 정보가 포함되어 있습니다.


https://huggingface.co/apple/DCLM-7B

DCLM-7B는 또한 디코더 전용 아키텍처를 채택하고 사전 학습을 위해 PyTorch 및 OpenLM 프레임워크를 사용합니다.

총 4T 토큰의 DCLM 기준 데이터 세트는 총 240T DCLM에서 나오며, DCLM-7B 모델은 훈련을 위해 추가로 2.5T를 필터링합니다.


컨텍스트 길이는 2048로 Mistral 7B 및 Gemma 2 9B의 8k 길이보다 작습니다.

성능 측면에서 저자는 LLM Foundry 평가 제품군을 직접 사용하여 53개 벤치마크 작업에 대한 모델 점수를 테스트했습니다.

다른 모델과 비교할 때 저자는 MMLU 점수 외에도 "핵심 정확도"(핵심)와 "확장 정확도"(확장)라는 두 가지 지표를 사용자 정의했습니다.

전자는 HellaSwag, ARC-E 등 22개 태스크 센터의 평균 정확도이고, 후자는 53개 태스크를 모두 포괄한다.

데이터를 가장 많이 사용하지는 않지만 동일한 크기의 다른 개방형 데이터 모델(가중치 및 데이터 세트 모두 오픈 소스)과 비교할 때 DCLM은 세 가지 지표 모두에서 최고의 성능을 달성합니다.


벤치마크 점수의 세 열은 왼쪽에서 오른쪽으로 코어, MMLU, 확장입니다.

이전 SOTA MAP-Neo 모델과 비교해 DCLM-7B의 5샷 MMLU 작업 정확도는 63.7%로 6.6%포인트 증가했고, 훈련에 필요한 계산량은 40% 줄었다.

그러나 오픈 소스 가중치와 비공개 소스 데이터 세트를 사용한 모델과 비교하면 효과가 만족스럽지 않습니다.

다양한 지표에서 DCLM과 Phi-3 사이에는 큰 격차가 있으며 점수는 Mistral-7B-v0.3 또는 Gemma 8B와 대략 동일합니다.


연구원들은 동일한 데이터 세트에서 추가로 100B의 데이터를 사용하여 훈련하고 컨텍스트 길이를 8k로 확장할 때 핵심 및 확장 벤치마크에 대한 모델 점수가 더 향상되었지만 MMLU 결과는 변하지 않았다는 것을 발견했습니다.


이 결과는 Mistral 7B-v0.3의 점수를 완전히 뛰어넘는 결과입니다.

또한 HuggingFace는 7B 모델의 명령 미세 조정 버전도 출시했습니다. 이 버전은 수학적 추론 작업 GSM8K에서 점수가 원래 2.1에서 52.5로 치솟는 등 대규모 성능 개선을 달성했습니다.


https://huggingface.co/apple/DCLM-7B-8k

버전 7B 외에도 버전 1.4B도 동시에 온라인 상태입니다. 신기하게도 7B 버전에 비해 훈련 데이터의 양이 0.1T 늘어났습니다.


https://huggingface.co/TRI-ML/DCLM-1B

HuggingFace가 최근 출시한 SmolLM과 비교하면 DCLM-1B의 성능이 훨씬 더 뛰어나며, 특히 5샷 MMLU 점수가 SmolLM보다 11.9% 더 높습니다.

뿐만 아니라 DCLM-1B의 MMLU 점수는 41.9로 Qwen-1.5B의 37.87, Phi-1.5B의 35.90보다 높습니다.


7B 모델은 뒤처졌지만 1.4B 모델이 이를 추월했다. 역시 소형 모델은 애플의 특기이다.

7B 모델은 Apple의 샘플 코드 라이센스(ASCL)에서만 사용할 수 있지만 1.4B 버전은 Apache 2.0에서 출시되어 상업적 사용, 배포 및 수정이 가능하다는 점에 주목할 필요가 있습니다.

이제 이번에 출시된 DCLM 시리즈 모델에 대해 이야기하고 있으니 이들의 중요한 기반인 DataComp 벤치마크를 언급해야 합니다.


논문 주소: https://arxiv.org/pdf/2406.11794

DataComp 논문은 6월 17일에 처음 출판되었습니다. 공동 저자인 Jeffrey Li, Alex Fang 및 공동 최종 저자인 Vaishaal Shankar도 Apple DCLM의 개발자입니다.

이 기사에서는 데이터 세트의 구성 프로세스를 자세히 설명할 뿐만 아니라 DCLM 모델에 대한 일부 내용도 언급합니다.

Vaishaal Shankar는 모델 사전 훈련에 대한 보다 기술적인 세부 정보를 제공하기 위해 이 문서의 업데이트된 버전이 곧 출시될 것이라고 말했습니다.

동일한 데이터 세트에 대해 모델을 수정하는 것과 비교하면 DataComp의 아이디어는 정반대입니다. 평가에 사용되는 모델은 고정되어 있으며 총 240T 데이터 풀에서 최상의 데이터를 필터링하고 처리하는 작업이 수행됩니다.

이 접근 방식은 거대 기술 기업의 연구 개발 아이디어와 매우 일치한다고 말할 수 있습니다. LLM의 성능을 위해서는 모델 아키텍처 및 가중치보다 사전 훈련 데이터가 더 중요한 요소가 되고 있습니다.

결국 Llama, Gemma, Phi 등 일련의 "오픈 소스" 모델은 가중치만 부여하고 데이터를 게시하지 않습니다.

Scaling Law와 SLM이 모두 필요합니다.

AI 기술 대기업의 경우 때로는 모델이 클수록 더 좋습니다.


실제로 마이크로소프트의 Phi 시리즈 모델이 여러 차례 반복되고, 6월 말 구글이 방금 업데이트한 Gemma 2 7B 등 AI 커뮤니티에는 항상 소형 모델이 부족하지 않았다.

이번 주에는 OpenAI가 갑자기 GPT-4o mini를 출시했고, Mistral AI는 NVIDIA와 협력하여 Mistral NeMo를 출시했으며, HuggingFace의 SmoLLM 및 기타 소형 모델이 출시되어 소형 모델 분야에 다시 불을 붙였습니다.

OpenAI 연구원은 "우리는 누구보다 큰 모델을 훈련하는 것을 선호하지만 OpenAI는 작은 모델을 훈련하는 방법도 알고 있습니다."라고 말했습니다.


소규모 모델은 비용이 저렴하고 빠르며 보다 전문적이라는 장점이 있습니다. 일반적으로 적은 양의 데이터만 사용하여 훈련되며 특정 작업을 위해 설계됩니다.

대형 모델을 작게 만들고 규모를 확장하는 것은 향후 개발 추세 중 하나일 수 있습니다.


이틀 전 GPT-4o mini가 출시되자 Andrej Karpathy도 비슷한 견해를 표현하는 장문의 트윗을 올렸습니다.


그는 모델 크기 경쟁이 점점 커지는 것이 아니라 누가 더 작고 가벼워지는지 경쟁하는 "역방향 증가"가 될 것이라고 믿습니다.

현재 LLM이 점차 '거대'가 된 이유는 훈련 과정이 여전히 매우 낭비적이기 때문입니다. 기본적으로 모델에 인터넷 전체의 내용을 기억하도록 요청하고 있습니다(그리고 실제로 LLM의 기억 능력은 꽤 좋습니다. , 품질은 인간보다 훨씬 좋습니다).

그러나 소규모 모델의 경우 학습 목표가 변경되었습니다. 핵심 질문은 AI 시스템이 어떻게 더 적은 데이터로 더 많은 것을 배울 수 있느냐는 것입니다.

데이터를 이상적인 합성 형식으로 재구성하고 형성하고 점차적으로 "완벽한 훈련 세트"를 얻은 다음 이를 작은 모델에 공급하려면 모델이 더 커졌다가 작아져야 합니다.

머스크도 이 ​​견해에 동의했다. Karpathy가 설명한 모델 개선 사다리는 Tesla가 실제로 취한 경로와 정확히 같습니다.


2023년 4월 샘 알트먼은 대형 AI 모델 시대의 종말을 선언했다. 최근 인터뷰에서 그는 데이터 품질이 추가 AI 교육의 주요 성공 요인임을 확인했습니다.


Microsoft 연구원들은 Phi 모델을 개발할 때 이러한 가정을 했습니다. Hugging Face의 AI 연구원들도 최근 이 가설을 확인하고 고품질 훈련 데이터 세트를 공개했습니다.

GPT-4를 예로 들면, 1조 개가 넘는 매개변수를 개발하고 사용하는 데 드는 비용은 1억 달러를 초과합니다.

법적 데이터 세트에 대해 특별히 훈련된 모델과 같은 소규모 모델은 100억 개 미만의 매개변수를 사용하고 1,000만 달러 미만의 비용이 들 수 있습니다. 각 쿼리에 응답하는 데 더 적은 컴퓨팅 성능을 사용하므로 비용이 더 낮습니다.

Nadella는 Phi 소형 모델 시리즈가 OpenAI 뒤의 무료 모델 크기의 1/100에 불과하며 많은 작업에서의 성능이 거의 비슷하다고 말했습니다.


이 밖에도 구글과 AI 스타트업 미스트랄(Mistral), 앤트로픽(Anthropic), 코히어(Cohere)도 올해 더 작은 모델을 출시했다.

지난 6월, Apple은 자체 AI 개발 로드맵을 발표하여 소프트웨어가 휴대폰에서 완전히 실행될 수 있도록 소형 모델을 사용하여 더 빠르고 안전하게 만들 계획입니다.

문서 요약이나 이미지 생성과 같은 많은 작업의 경우 대형 모델은 과도할 수 있습니다.

Transformer의 선구적인 작업을 주도한 저자인 Illia Polosukhin은 2+2를 계산하는 데 천조 개의 연산이 필요하지 않다고 말했습니다.

그러나 기술 대기업들은 대형 모델을 포기하지 않았습니다. 올해 WWDC 컨퍼런스에서 Apple은 이메일 작성과 같은 복잡한 작업을 수행하기 위해 ChatGPT를 Siri 도우미에 통합한다고 발표했습니다.

결국, 궁극적인 AGI/ASI로 이어지는 매개변수 규모의 확장은 지능의 성장에 정비례합니다.


참고자료:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/