소식

Apple은 7B 모델을 오픈 소스로 제공하고 전체 훈련 프로세스 데이터 세트를 한 번에 제공했습니다. 네티즌들은 Apple과 매우 다르다고 말했습니다.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

애플은 가장 최근에 오픈소스 대형 모델 전장에 뛰어들었고, 다른 기업보다 개방적이다.

발표7B 모델, 효과가 동일할 뿐만 아니라라마 3 8B꽤 좋은데, 한꺼번에 오픈소스로 나오네요.모든 교육 프로세스 및 리소스



얼마 전 네이처(Nature) 잡지의 편집자인 엘리자베스 기브니(Elizabeth Gibney)는비평 쓰기

  • 오픈 소스라고 주장하는 많은 AI 모델은 실제로 데이터 및 훈련 방법 측면에서 투명하지 않으며 실제 과학 연구의 요구를 충족할 수 없습니다.

하지만 이번에는 Apple이 실제로 등장했습니다! !

NLP 과학자이자 AutoAWQ의 창시자조차도 다음과 같이 외쳤습니다.

  • 애플은 미스트랄 7B를 능가하는 모델을 출시했는데, 더 좋은 점은 모든 것을 완전히 오픈소스화했다는 점입니다.사전 훈련 데이터세트 포함



이는 또한 네티즌들의 온라인 조롱을 불러일으켰습니다.



이 오픈 소스의 중요성에 대해 일부 열성적인 네티즌들은 이를 요약하는 데 도움을 주었습니다.

  • 모델을 처음부터 학습시키거나 기존 모델을 미세 조정하려는 사람은 누구나데이터 관리 프로세스연구해야합니다.



물론 OpenAI와 Apple 외에도 Mistral AI와 Nvidia도 지난주에 12B 매개변수 소형 모델을 출시했습니다.

HuggingFace의 창립자는 이렇게 말했습니다."소형모델위크"오는!



롤! 계속 굴러보세요! 그렇다면 이번에 애플이 출시한 소형 모델은 얼마나 효과적인가?

효과는 Llama 3 8B에 가깝습니다.

Hugging Face의 기술 디렉터가 방금 "unboxed"한 내용을 살펴 보겠습니다.모델 기본 구성

그것을 요 ​​약하기:

  • 공개 데이터 세트에 사용되는 7B 기본 모델2.5T 토큰훈련을 실시하다
  • 주로 영어 데이터,2048토큰 컨텍스트 창
  • 데이터 세트에는 DCLM-BASELINE, StarCoder 및 ProofPile2가 포함됩니다.
  • MMLU 점수는 Llama 3 8B에 가깝습니다.
  • PyTorch 및 OpenLM 프레임워크를 사용한 교육



구체적으로 연구팀은 먼저 언어 모델을 제안했다.데이터 비교를 위한 새로운 벤치마크——DCLM。

이 벤치마크는 팀이 다음을 발견했기 때문에 제안되었습니다.

  • 기계 학습(ML) 모델을 통해 대규모 데이터 세트에서고품질 데이터를 자동으로 필터링하고 선택합니다., 고품질 훈련 세트를 구축하는 열쇠가 될 수 있습니다.

따라서 팀은 특히 다중 모드 도메인에서 모델 성능을 향상시키기 위해 DCLM을 사용하여 고품질 데이터 세트를 설계합니다.

저것아이디어간단합니다. 표준화된 프레임워크를 사용하여 고정 모델 아키텍처, 훈련 코드, 하이퍼파라미터 및 평가를 포함한 실험을 수행하고 마지막으로 고성능 모델 훈련에 가장 적합한 데이터 랭글링 전략을 찾아보세요.



위의 아이디어를 바탕으로 팀은고품질 데이터 세트 DCLM-BASELINE, 이를 사용하여 7B 매개변수 모델인 DCLM-7B를 처음부터 훈련했습니다.



DCLM-7B의 구체적인 성능은 무엇입니까?

결과는 MMLU 벤치마크에서 5-shot으로 나타났습니다.정확도 64% 도달Mistral-7B-v0.3(63%) 및 Llama 3 8B(66%)와 비슷하며 53개 자연어 이해 작업의 평균 성능도 Llama 3 8B와 비슷하지만 필요한 계산량은 1에 불과합니다. /6 후자.



같은 크기의 다른 모델과 비교하면 DCLM-7B의 MMLU 점수는 Mistral-7B를 능가하며 Llama 3 8B에 가깝습니다.



마지막으로,새로운 데이터 세트의 효과 테스트, 일부 내부자는 Kapasi의 llm.c를 사용하여 GPT-2 1.5B를 교육하여 DCLM-Baseline과 FineWeb-Edu의 두 데이터 세트를 비교했습니다.



결과는 DCLM-Baseline이 달성한 것으로 나타났습니다.더 높은 평균 점수, ARC(초등학생의 과학적 문제 추론), HellaSwag(상식 추론) 및 MMLU와 같은 작업에서 더 나은 성능을 발휘합니다.



'스몰' 모델이 새로운 트렌드로 자리매김

원점으로 돌아가 최근에는 '소형' 모델이 새로운 트렌드로 자리 잡았습니다.

먼저 HuggingFace는 소형 모델 제품군을 출시했습니다.“스몰LM”, 여기에는 135M, 360M 및 1.7B 모델이 포함됩니다.



광범위한 추론 및 상식 벤치마크에서 비슷한 크기의 모델보다 성능이 뛰어납니다.



그러던 중 갑자기 OpenAI가 출시되었습니다.GPT-4o 미니, 성능이 GPT-4에 가까울 뿐만 아니라 가격도 크게 떨어졌습니다.



그냥 GPT-4o mini에같은 날 출시됨, Mistral AI 및 NVIDIA는 12B 매개변수 소형 모델을 출시했습니다.미스트랄 네모

전반적인 성능 측면에서 Mistral NeMo는 여러 벤치마크 테스트에서 Gemma 2 9B 및 Llama 3 8B를 이겼습니다.



그렇다면 왜 모두가 작은 모델을 굴리기 시작합니까?

그 이유는 smol AI의 창립자가 말한 것처럼 모델이 작아졌지만 기능이 비슷할 경우 작은 모델이 됩니다.비용 대폭 절감



그가 제공한 사진처럼 GPT-4o mini로 대표되는 소형 모델들은 대체적으로 오른쪽 모델들보다 가격이 저렴하다.



이에 멜론을 먹는 분들의 모습은 다음과 같습니다.



그렇다면 어느 쪽을 선호하시나요?