소식

Mamba는 코드 작성 측면에서 Transformer를 능가합니다!최고의 새로운 컨퍼런스에 선정된 원본 논문

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

서풍은 아오페이사에서 불어온다
Qubits 공개 계정 QbitAI

"유럽 오픈AI"와 "트랜스포머 챌린저"가 힘을 합쳤습니다!

Mistral AI, 최초의 AI 기반 출시맘바2아키텍처를 위한 오픈 소스 모델 -코데스트랄 맘바(7B), 코드 생성을 전문으로 합니다.



Transformer 아키텍처와 달리 Mamba 아키텍처는 "선형 시간 추론"을 수행할 수 있으며 이론적으로 무한 길이 입력을 지원할 수 있습니다.

Mistral AI: 이것이 우리가 공격에 저항하기 위해 Mamba 아키텍처에서 시작한 코드 추론 모델을 사용하는 이유입니다.



Mistral AI는 가장 많은 것을 가지고 있다고 말합니다256k 토큰 컨텍스트Codestral Mamba는 .

벤치마크 테스트에서 Codestral Mamba의 전반적인 성능은 CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B 및 CodeLlama 34B를 능가했습니다.

일부 네티즌들은 이번 물결이 Mistral AI가 Mamba 아키텍처를 발전시키는 속도라고 말했습니다.

Mamba 아키텍처의 저자 중 한 명, CMU 조교수앨버트 구표현하다:

약한 "토큰화"(예: 코드, 바이트 수준 모델링)를 사용하는 다양한 양식 또는 데이터 형식은 SSM과 같은 압축 모델의 이점을 점점 더 많이 누릴 것입니다.



Codestral Mamba 외에도 Mistral AI도 새로운 제품을 출시했습니다.수학적 모델——수학(7B)。

흥미로운 점은 네티즌들이 최근 며칠간 대형 모델이 자주 뒤집어지도록 만들었다는 점이다.9.11과 9.9 중 어느 것이 더 큰가요?"라는 질문에 Mathstral은 먼저 정수를 비교한 다음 소수 부분을 비교하고 마침내 올바른 결과를 얻는 데 성공했습니다.





7B 성능은 22BTransformer에 가깝습니다.

전체 Codestral Mamba 벤치마크 결과는 다음과 같습니다.



HumanEval C++/Java/JavaScript/Bash와 같은 모든 벤치마크에서 Codestral Mamba는 CodeGemma-1.1 7B, CodeLlama 7B를 능가하고 더 큰 CodeLlama 34B를 능가합니다.

Mistral AI의 이전 가장 강력한 오픈 소스 프로그래밍 모델코데스트랄 22BCodestral Mamba와 큰 차이는 없습니다.

또한 벤치마크에서도 DeepSeek v1.5 7B가 두각을 나타내며 Codestral Mamba와 함께 왔다갔다하고 있습니다.

DeepSeek v1.5 7B는 Spider(복잡한 도메인 간 의미 분석 및 텍스트-SQL 작업), HumanEval Java, HumanEval Bash, MBPP 등에서 Codestral Mamba보다 우수합니다.

벤치마크 결과 외에도 Codestral Mamba의 가장 흥미로운 점은 이것이 Mamba2 아키텍처 모델의 첫 번째 배치라는 것입니다.

FlashAttention 작성자의 Mamba 아키텍처트리 다오CMU 조교수이자 Cartesia AI의 공동 창립자이자 수석 과학자입니다.앨버트 구지난해 말 제안됐다.



이전에 ChatGPT와 같은 대규모 Transformer 아키텍처 모델에는 큰 문제점이 있었습니다. 즉, 긴 텍스트를 처리하는 데 엄청난 양의 컴퓨팅 성능이 소비되었습니다. 그 이유는 Transformer 아키텍처의 Attention 메커니즘의 2차 복잡성 때문이기도 합니다.

Mamba는 Transformer의 성능과 완벽하게 일치하는 최초의 제품입니다.선형 시계열 모델, 역시 상태공간 모델(SSM, State Space Model)이다.

Mamba는 딥 러닝에 적합한 보다 현대적인 Structured SSM(S4, Structured SSM)을 기반으로 구축되었으며 기존 아키텍처 RNN과 유사합니다.

세 가지 주요 혁신은 입력 정보의 선택적 처리, 하드웨어 인식 알고리즘, 더욱 단순한 아키텍처입니다.

Mamba 아키텍처는 출시되자마자 업계에서 폭넓은 주목을 받았습니다. Stability AI 창립자이자 NVIDIA 과학자인 Jim Fan과 다른 사람들은 이 기술의 출현에 매우 기뻐하고 있습니다.





Mamba의 원본 논문은 올해 초 ICLR에 의해 거부되었으며, 이는 서클에서 열띤 토론을 불러일으켰습니다.

그러나 최근에는 차세대 최고 학회인 CoLM2024에서 받아들여졌습니다.



Mamba2는 2세대 버전으로 상태 공간이 8배 확장되고 훈련 속도가 50% 증가했습니다.

Mamba2 논문에서는 Transformer의 Attention 메커니즘이 SSM과 매우 밀접한 수학적 연관성을 가지고 있음이 밝혀졌으며, 이 논문은 ICML 2024에 성공적으로 선정되었습니다.



수학적 모델도 출시되었습니다.

Codestral Mamba 외에도 Mistral AI는 오픈 소스 수학적 모델도 출시했습니다.수학(7B) 아르키메데스 탄생 2311주년을 기념하여.

Mathstral은 STEM(과학, 기술, 엔지니어링, 수학)에 초점을 맞춘 Mistral 7B를 기반으로 하며 컨텍스트 창은 32k입니다.

벤치마크 테스트에서 Mathstral MATH는 56.6%, MMLU는 63.47%를 기록했습니다.

요점은 Mathstral이 더 많은 추론 시간 계산을 통해 더 나은 결과를 얻을 수도 있다는 것입니다.

다수결 투표 메커니즘을 적용한 Mathstral 7B는 MATH 테스트에서 68.37%를 기록했으며, 64개 후보 모델 중 강력한 보상 모델을 적용한 경우 점수가 74.59%로 향상되었습니다.



다음은 다양한 MMLU 과목에서 Mathstral 7B와 Mistral 7B의 성능 차이입니다.



참조 링크:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/미스트랄AI/상태/1813222156265791531
[4]https://x.com/기욤램프/상태/1813231491154899012
[5]https://x.com/theo_gervet/상태/1813226968600469824
[6]https://x.com/tuturetom/상태/1813238885453033540
[7]https://x.com/원후천/상태/1812562112524226569