소식

작은 모델이 일어섰고, SOTA는 브라우저에서 뛰쳐나와 내 얼굴을 껴안았습니다. 합성 데이터는 미래가 아닙니다

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen은 Aofei Temple에서 왔습니다.
큐빗(Qubits) 공개 계정 QbitAI

브라우저에서 직접 실행할 수 있는 SOTA 소형 모델이 Huahuanlian에서 생산한 각각 2억, 5억, 20억 수준에서 우승했습니다.



비밀은 두 가지뿐입니다.

  • 데이터를 적극적으로 필터링
  • 고도로 필터링된 데이터세트로 열심히 훈련하세요

Huaqiang의 수석 과학자토마스 울프, 소형 모델을 개발하고 새로운 관점을 제시하며 업계의 관심을 끌었던 팀의 경험을 요약합니다.

합성 데이터는 현재 특정 영역에서만 유용합니다.,네트워크는 너무 크고 다양하여 실제 데이터의 잠재력이 아직 완전히 실현되지 않았습니다.



현재 360M 모델 버전은 데모 버전으로 출시되었으며 온라인으로 플레이할 수 있습니다(교통량에 주의하세요).



모델 가중치, 웹 프런트 엔드 UI를 포함하여 브라우저에서 실행하기 위해 로컬 GPU를 호출하며 400MB로 수행됩니다.



네트워크 데이터를 엄격하게 필터링하면 성능이 급상승합니다.

마이크로소프트 파이 시리즈 소형 모델의 경우 합성 데이터의 절반을 사용해 효과가 매우 좋다고 주장하지만 데이터는 공개되지 않는다.

오픈소스 커뮤니티는 너무 견디기 힘들어서 더 이상 참을 수 없습니다.

벤치마킹을 위한 대규모 합성 데이터 세트를 만들고 이를 오픈소스로 제공합니다.

더욱이 팀은 이러한 움직임이 Microsoft가 테스트 세트에서 부정 행위를 하고 있다는 소문과 이것이 고려되는지 여부도 테스트할 것이라고 막연하게 암시했습니다.



Hugshuang은 당시 최고의 오픈소스 모델이었던 Mixtral-8-7B를 사용하여 구축되었습니다.25비합성 데이터.

훈련된 모델은 성능이 좋지만 여전히 Phi-1 및 Phi-1.5 수준보다 다소 낮습니다.

그들은 중학교 수준에서 다양한 주제를 설명하는 대형 모델을 사용하려고 시도했지만 결국 MMLU 테스트에서는 성적이 좋지 않았습니다. MMLU는 박사 수준 문제이기 때문입니다.



진정한 성능 혁신은 부차적인 작업에서 나왔습니다.

대규모 모델을 사용하여 처음부터 합성 데이터를 생성하는 것 외에도대규모 모델 필터링으로 네트워크 데이터 필터링

특히, Llama3-70B-Struct에 의해 생성된 주석을 사용하여 분류기가 개발되었습니다.FineWeb 데이터세트에는 가장 교육적인 웹페이지만 보관하세요.

엄격하게 필터링된 네트워크 데이터를 사용하면 성능이 급상승하고 Phi-1.5를 포함한 대부분의 벤치마크에서 유사한 크기의 다른 모든 모델보다 성능이 뛰어납니다.



Huahuanglian 팀은 이 실험의 결과는 다음과 같다고 말했습니다.“달콤달콤”’s: 모델 성능이 전례 없이 높음에도 불구하고, 합성 데이터가 여전히 실제 데이터만큼 좋지 않다는 것을 보여줍니다.

나중에 그들은 동일한 아이디어를 사용하여 자연어에서 코드로 확장했으며 필터링된 코드 데이터 세트도 매우 강력한 것으로 입증되었습니다.

HumanEval 벤치마크 점수를 약 13%에서 20% 이상으로 직접 향상시킵니다.

그들이 구축한 최종 혼합 데이터 세트에서는 중복 제거를 통해 필터링된 데이터 세트가 대다수를 차지했으며 순수 합성 데이터 Cosmopedia v2는 15%에 불과했습니다.



요약하자면, 합성 데이터가 여전히 유용한가요?

팀은 추론이나 수학과 같이 실제 데이터가 실제로 부족한 영역에서만 더 의미가 있을 수 있다고 믿습니다.



작은 모델이라도 훈련하려면 수조 개의 토큰이 필요합니다.

그들이 이러한 새로운 발견과 결과에 대해 흥분하고 있을 때 새로운 인턴인 Elie Bakouch가 합류했습니다.

당시 그는 비록 인턴에 불과했지만 실제로는 다양한 훈련 기술의 전문가였습니다.



Elie의 도움으로 팀은 모델 크기를 1.7B에서 360M, 심지어 표준 모델인 GPT-1, GPT-2 및 BERT인 170M로 줄였습니다.

이 과정에서 두 번째 중요한 발견이 이루어졌습니다. 과거의 합의와는 달리,작은 모델이라도 수조 개의 토큰으로 훈련해야 합니다., 길수록 좋습니다.

또한데이터 어닐링(데이터 어닐링)도 효과적인 것으로 나타났습니다. 즉, 훈련의 마지막 부분에 대해 특별한 고품질 데이터 세트를 유지하는 것입니다.

최종 출시된 모델 시리즈는 스마트폰부터 노트북까지 다양한 기기에 탑재하기에 적합하다. 가장 큰 1.7B 모델인 BF16은 3G 메모리만 차지한다.

참고로 iPhone 15 보급형 버전에도 6G가 있고 Android 휴대폰에는 더 많은 기능이 있습니다.



이번에 훈련된 기본 모델은 충분했지만 팀에서는 여전히 문제를 발견했습니다.

SFT, DPO, PPO 등과 같은 과거 정렬 및 미세 조정 기술은 대형 모델에는 매우 효과적이지만 소형 모델에는 적합하지 않습니다.

팀은 정렬 데이터 세트에 작은 모델에 비해 너무 복잡하고 잘 설계된 간단한 작업이 부족한 개념이 많이 포함되어 있다고 분석했습니다.

다음으로 새로운 구덩이가 파졌고, 관심 있는 팀이 작업을 시작할 수 있으며, 그들은 소형 모델의 구세주가 될 수 있습니다.

온라인 평가판:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

참조 링크:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/톰_울프/상태/1825094850686906857