소식

Non-Transformer 아키텍처가 라마 3.1을 능가하는 최초의 순수 대형 모델입니다!

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



기계 심장 보고서

편집자: Du Wei, Chen Chen

Mamba 아키텍처의 대형 모델이 다시 한번 Transformer에 도전했습니다.

Mamba 아키텍처 모델이 이번에는 마침내 "일어서게" 될까요? Mamba는 2023년 12월 처음 출시된 이후 Transformer의 강력한 경쟁자가 되었습니다.

이후 Mistral이 출시한 Mamba 아키텍처 기반 최초의 오픈소스 대형 모델인 Codestral 7B 등 Mamba 아키텍처를 사용하는 모델이 계속해서 등장했습니다.

오늘 아부다비 기술혁신연구소(TII)는새로운 오픈 소스 Mamba 모델 – Falcon Mamba 7B



먼저 Falcon Mamba 7B의 주요 특징을 요약해 보겠습니다. 메모리 저장 용량을 늘리지 않고도 모든 길이의 시퀀스를 처리할 수 있으며 단일 24GB A10 GPU에서 실행할 수 있습니다.

현재 Hugging Face에서 시청 및 사용이 가능한 Falcon Mamba 7B는 소설을 이용한 인과 디코더 전용 모델입니다.Mamba SSLM(상태 공간 언어 모델) 아키텍처다양한 텍스트 생성 작업을 처리합니다.

결과에 따르면 Falcon Mamba 7B는 Meta의 Llama 3 8B, Llama 3.1 8B 및 Mistral 7B를 포함한 일부 벤치마크에서 동급 크기의 주요 모델을 능가했습니다.



Falcon Mamba 7B는 기본 버전, 명령 미세 조정 버전, 4비트 버전 및 명령 미세 조정 4비트 버전의 네 가지 변형 모델로 구분됩니다.



Falcon Mamba 7B는 오픈 소스 모델로서 Apache 2.0 기반 라이선스 "Falcon License 2.0"을 채택하여 연구 및 응용 목적을 지원합니다.



허깅페이스 주소: https://huggingface.co/tiiuae/falcon-mamba-7b

Falcon Mamba 7B는 Falcon 180B, Falcon 40B 및 Falcon 2에 이어 TII가 오픈소스로 제공한 네 번째 모델이 되었습니다.최초의 Mamba SSLM 아키텍처 모델



최초의 보편적인 대규모 순수 Mamba 모델

Transformer 기반 모델은 오랫동안 생성적 AI를 지배해 왔습니다. 그러나 연구자들은 Transformer 아키텍처가 더 긴 텍스트 정보를 처리할 때 어려움을 겪을 수 있음을 발견했습니다.

기본적으로 Transformer의 어텐션 메커니즘은 각 단어(또는 토큰)를 텍스트의 모든 단어와 비교하여 컨텍스트를 이해합니다. 이를 위해서는 증가하는 컨텍스트 창을 처리하기 위해 더 많은 컴퓨팅 성능과 메모리 요구 사항이 필요합니다.

그러나 컴퓨팅 리소스가 그에 맞게 확장되지 않으면 모델 추론 속도가 느려지고 특정 길이를 초과하는 텍스트를 처리할 수 없습니다. 이러한 장애물을 극복하기 위해 단어를 처리하면서 상태를 지속적으로 업데이트하는 SSLM(State Space Language Model) 아키텍처가 유망한 대안으로 떠오르며 TII를 비롯한 많은 기관에서 배포되고 있습니다.

Falcon Mamba 7B는 원래 Carnegie Mellon University 및 Princeton University의 연구원이 2023년 12월 논문에서 제안한 Mamba SSM 아키텍처를 사용합니다.

아키텍처는 모델이 입력에 따라 매개변수를 동적으로 조정할 수 있도록 하는 선택 메커니즘을 사용합니다. 이러한 방식으로 모델은 Transformer에서 어텐션 메커니즘이 작동하는 방식과 유사하게 특정 입력에 집중하거나 무시할 수 있으며, 추가 메모리나 컴퓨팅 리소스 없이도 긴 텍스트 시퀀스(예: 책 전체)를 처리할 수 있는 기능을 제공합니다.

TII는 이 접근 방식을 통해 모델이 엔터프라이즈 수준의 기계 번역, 텍스트 요약, 컴퓨터 비전 및 오디오 처리 작업, 추정 및 예측과 같은 작업에 적합하다고 언급했습니다.

훈련 데이터

팔콘 맘바 7B최대 5500GT의 훈련 데이터는 주로 공개 소스의 고품질 기술 데이터, 코드 데이터 및 수학 데이터로 보강된 RefinedWeb 데이터 세트로 구성됩니다. 모든 데이터는 Falcon-7B/11B 토크나이저를 통해 토큰화됩니다.

다른 Falcon 시리즈 모델과 마찬가지로 Falcon Mamba 7B는 훈련을 위해 다단계 훈련 전략을 사용합니다.컨텍스트 길이가 2048에서 8192로 증가했습니다.. 또한 TII는 코스 학습 개념에서 영감을 받아 데이터의 다양성과 복잡성을 충분히 고려하여 교육 단계 전반에 걸쳐 혼합 데이터를 신중하게 선택합니다.

최종 훈련 단계에서 TII는 소규모의 선별된 고품질 데이터 세트(예: Fineweb-edu의 샘플)를 사용하여 성능을 더욱 향상시킵니다.

훈련 과정, 하이퍼파라미터

Falcon Mamba 7B에 대한 대부분의 훈련은 다음과 같습니다.256개의 H100 80GB GPU에서 수행됨, 3D 병렬성(TP=1, PP=1, DP=256)과 ZeRO를 결합한 전략이 채택되었습니다. 아래 그림은 정확도, 최적화 도구, 최대 학습 속도, 가중치 감소 및 배치 크기를 포함한 모델 하이퍼파라미터 세부 정보를 보여줍니다.



특히 Falcon Mamba 7B는 AdamW 최적화 프로그램, WSD(warm-stabilize-decay) 학습 속도 일정으로 훈련되었으며, 처음 50GT 훈련 동안 배치 크기가 b_min=128에서 b_max=2048로 증가했습니다.

안정 단계에서 TII는 최대 학습률 eta_max=6.4×10^−4를 사용한 다음 500GT 이상의 지수 일정을 사용하여 이를 최소로 감소시킵니다. 동시에 TII는 가속 단계에서 BatchScaling을 사용하여 학습 속도 eta를 다시 조정하여 Adam 잡음 온도가 일정하게 유지되도록 합니다.





전체 모델 훈련에는 약 2개월이 걸렸습니다.

모델 평가

Falcon Mamba 7B가 동급 크기의 주요 Transformer 모델과 어떻게 비교되는지 이해하기 위해 연구에서는 단일 24GB A10 GPU를 사용하여 모델이 처리할 수 있는 최대 컨텍스트 길이를 결정하는 테스트를 수행했습니다.

결과는 Falcon Mamba가 현재 Transformer 모델보다 더 큰 시퀀스에 적응할 수 있음을 보여줍니다.이론적으로 무제한의 컨텍스트 길이를 수용할 수 있습니다.



다음으로 배치 크기 1과 H100 GPU의 하드웨어 설정을 사용하여 모델 생성 처리량을 측정했습니다. 결과는 아래 그림에 나와 있습니다. Falcon Mamba는 CUDA 최대 메모리를 늘리지 않고 일정한 처리량으로 모든 토큰을 생성합니다. Transformer 모델의 경우 생성된 토큰 수가 증가함에 따라 최대 메모리가 증가하고 생성 속도가 느려집니다.



표준 산업 벤치마크에서도 새 모델은 인기 있는 변압기 모델은 물론 순수 및 하이브리드 상태공간 모델보다 우수하거나 그에 가까운 성능을 발휘합니다.

예를 들어 Arc, TruthfulQA 및 GSM8K 벤치마크에서 Falcon Mamba 7B는 각각 62.03%, 53.42%, 52.54%를 기록하여 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 및 Mistral 7B를 능가했습니다. 그러나 MMLU 및 Hellaswag 벤치마크에서 Falcon Mamba 7B는 이러한 모델보다 훨씬 뒤떨어져 있습니다.



TII 수석 연구원인 Hakim Hacid는 성명에서 "Falcon Mamba 7B의 출시는 기관의 중요한 진전을 의미하며 새로운 관점을 불러일으키고 지능형 시스템에 대한 탐구를 촉진합니다"라고 말했습니다. TII에서는 SSLM 및 변환기 모델의 경계를 넓혀 생성 AI의 추가 혁신을 촉진하고 있습니다.

현재 TII의 Falcon 언어 모델 시리즈는 4,500만 번 이상 다운로드되어 UAE에서 가장 성공적인 LLM 버전 중 하나가 되었습니다.

Falcon Mamba 7B 논문은 곧 공개될 예정이니 조금만 기다려주세요.

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/