소식

원작은 직접 완결! Mistral의 첫 오픈소스 7B Mamba 모델 "Cleopatra"는 놀라운 효과를 가집니다.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개] 최근에는 7B 소형 모델이 AI 거대 기업들이 따라잡기 위해 경쟁하는 추세가 됐다. Google의 Gemma2 7B에 이어 Mistral은 오늘 STEM 과목용 Mathstral과 Mamaba 아키텍처를 사용하는 코드 모델인 Codestral Mamba라는 두 가지 7B 모델을 추가로 출시했습니다.

미스트랄에는 또 다른 놀라움이 있습니다!

바로 오늘 Mistral은 Mathstral 7B와 Codestral Mamba 7B라는 두 가지 소형 모델을 출시했습니다.

첫 번째는 수학적 추론과 과학적 발견을 위해 설계된 Mathstral 7B입니다.

MATH 벤치마크 테스트에서는 미네르바 540B보다 20% 이상 높은 56.6% pass@1의 점수를 달성했습니다. Mathstral은 MATH에서 68.4%, 보상 모델을 사용하여 74.6%를 기록했습니다.

코드 모델 Codestral Mamba는 Mamba 2 아키텍처를 채택한 최초의 오픈 소스 모델 중 하나입니다.

이는 256,000개의 토큰의 컨텍스트 길이를 사용하여 훈련된 사용 가능한 7B 코드 모델 중 최고입니다.


두 모델 모두 Apache 2.0 라이선스로 출시되었으며 가중치는 현재 HuggingFace 창고에 업로드되어 있습니다.


허깅페이스 주소 : https://huggingface.co/mistralai

수학

흥미롭게도 공식 발표에 따르면 Mathstral의 출시는 아르키메데스 탄생 2311주년을 기념하기 위해 이루어졌습니다.

Mathstral은 복잡한 다단계 추론이 필요한 고급 수학 문제를 해결하기 위해 STEM 과목을 위해 설계되었습니다. 매개변수는 7B에 불과하고 컨텍스트 창은 32k입니다.

또한 Mathstral의 연구 개발에는 지난 주 Kaggle의 첫 번째 AI 수학 올림피아드 대회에서 우승을 차지한 Numina라는 헤비급 파트너도 있습니다.


더욱이, 일부 트위터 사용자들은 Mathstral이 "9.·11과 9.9 중 어느 것이 더 큽니까?"라는 질문에 정확하게 대답할 수 있다는 사실을 발견했습니다. 이 질문은 많은 대형 모델들을 난처하게 만들었습니다.

정수와 소수를 따로 비교하여 사고의 사슬이 명쾌한 뛰어난 수학적 모델 작업의 모델이라 할 수 있습니다.


Mistral 7B의 언어 기능을 기반으로 Mathstral은 STEM 과목에 더욱 중점을 둡니다. MMLU의 과목 분석 결과에 따르면 수학, 물리학, 생물학, 화학, 통계, 컴퓨터 과학 및 기타 분야는 Mathstral의 절대적인 장점입니다.


공식 블로그 게시물에 따르면 Mathstral은 모델 성능을 대가로 추론 속도를 일부 희생하는 것으로 보이지만 평가 결과를 보면 이러한 절충안은 그만한 가치가 있습니다.

수학 및 추론 분야의 여러 벤치마크 테스트에서 Mathstral은 Llama 3 8B 및 Gemma2 9B와 같은 인기 있는 소형 모델을 물리쳤으며, 특히 AMC 2023 및 AIME 2024와 같은 수학 경쟁 질문에서 SOTA에 도달했습니다.


또한 더 나은 모델 결과를 얻기 위해 추론 시간을 더 늘릴 수 있습니다.

64명의 후보자에 대해 다수결을 사용하면 Mathstral의 MATH 점수는 68.37%에 도달할 수 있으며, 추가 보상 모델을 추가하면 74.59%의 높은 점수를 얻을 수 있습니다.

HuggingFace 및 la Plateforme 플랫폼 외에도 공식적으로 출시된 두 오픈 소스 SDK인 Mistral-finetune 및 Mistral Inference를 호출하여 모델을 사용하거나 미세 조정할 수도 있습니다.

코데스트랄 맘바

Transformer 아키텍처를 따르는 Mixtral 시리즈 출시에 이어 Mamba2 아키텍처를 사용한 최초의 코드 생성 모델인 Codestral Mamba도 출시되었습니다.

또한 Mamba, Albert Gu 및 Tri Dao의 원저자들도 연구 개발 과정을 지원했습니다.

흥미롭게도 공식 발표 기사에는 독사와 함께 극적인 삶을 마감한 관련 '클레오파트라' 클레오파트라 7세가 구체적으로 인용됐다.

Mamba 아키텍처가 출시된 후, 그 뛰어난 실험 성능은 광범위한 관심과 낙관론을 받았습니다. 그러나 전체 AI 커뮤니티가 Transformer에 너무 많은 돈을 투자했기 때문에 실제로 Mamba를 사용하는 산업 모델을 거의 본 적이 없습니다.

이때 Codestral Mamba는 새로운 아키텍처 연구에 대한 새로운 관점을 제공할 수 있습니다.

Mamba 아키텍처는 2023년 12월에 처음 출시되었으며, 두 저자는 올해 5월 Mamba-2의 업데이트 버전을 출시했습니다.

Transformer와 달리 Mamba 모델은 선형 시간 추론의 장점이 있으며 이론적으로 무한 길이의 시퀀스를 모델링할 수 있습니다.

둘 다 7B 모델입니다. Mathstral의 컨텍스트 창은 32k에 불과하지만 Codestral Mamba는 256k까지 확장할 수 있습니다.

추론 시간 및 컨텍스트 길이의 효율성 이점과 빠른 응답 가능성은 인코딩 효율성을 향상시키기 위한 실제 시나리오에서 특히 중요합니다.

Mistral 팀은 Mamba 모델의 이러한 장점을 보고 이를 시도하는 데 앞장섰습니다. 벤치마크 테스트에서 7B 매개변수 Codestral Mamba는 다른 7B 모델에 비해 확실한 이점을 가질 뿐만 아니라 더 큰 규모의 모델과도 경쟁할 수 있습니다.


8번의 벤치마크 테스트에서 Codestral Mamba는 기본적으로 Code Llama 34B와 일치했으며, 심지어 6번의 테스트에서 성능을 능가했습니다.

하지만 큰 자매인 Codestral 22B와 비교하면 Codestral Mamba의 파라미터 단점이 반영되어 여전히 성능이 부족한 것으로 보입니다.

코드스트랄 22B가 출시된 지 두 달도 안 된 신모델이라는 점은 언급할 만하다. 파리에 본사를 둔 미스트랄이 이렇게 인기가 많다는 점은 다시 한 번 안타깝다.

Codestral Mamba는 Mistral-inference 또는 NVIDIA에서 출시한 신속한 배포 API TensorRL-LLM을 사용하여 배포할 수도 있습니다.


GitHub 주소: https://github.com/NVIDIA/TensorRT-LLM

로컬 운영의 경우 공식 블로그에서는 llama.cpp의 후속 지원에 주목할 수 있다고 명시했습니다. 그러나 ollama는 신속하게 행동하여 Mathstral을 모델 라이브러리에 추가했습니다.


네티즌들이 codetral mamba를 업데이트하라는 촉구에 직면하자 ollama도 매우 강력하게 말했습니다. "우리는 이미 작업 중입니다. 조급해하지 마세요."


참고자료:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code- Generation/