2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI
Transformer 아키텍처를 교체하기만 하면 모든 면에서 성능이 즉각적으로 향상되어 동급 최고의 오픈소스 모델이 되는 것이 가능해집니다!
(주의 메커니즘은 더 이상 존재하지 않습니다)
이것은 최신입니다팔콘 맘바 7B모델.
그것은 사용한다Mamba 상태 공간 언어 모델 아키텍처다양한 텍스트 생성 작업을 처리합니다.
전통적인 어텐션 메커니즘을 취소함으로써 모델이 긴 시퀀스를 처리할 때 계산 효율성이 떨어지는 문제가 효과적으로 개선됩니다.
그것은 처리할 수무한히 길다하지만 메모리 요구 사항은 증가하지 않습니다.
문맥이 아무리 길어도각 토큰을 생성하는 시간은 기본적으로 동일합니다.。
결과적으로 Falcon Mamba 모델의 성능은 모든 측면에서 향상되어 Llama-3.1(8B), Mistral(7B) 및 Falcon-2(11B)와 같은 많은 Transformer 아키텍처 모델을 물리쳤습니다.
위 결과는 팔콘(Falcon) 모델 개발팀인 아랍에미리트 아부다비 소재 기술혁신연구소(TII)에서 가져온 것이다.
이 시리즈에는 기본 버전, 명령 미세 조정 버전, 4비트 버전 및 명령 미세 조정 4비트 버전의 총 4가지 모델이 포함되어 있습니다.
최신 모델은 Apache 2.0 라이센스에 속하는 TII Falcon 라이센스 2.0에 따라 공개됩니다.
네티즌들은 “게임의 규칙이 곧 바뀔 예정이다!”라고 외쳤다.
세계 최초의 오픈 소스 SSLM
성능 측면에서 Falcon Mamba 7B는 모든 측면에서 많은 오픈 소스 모델을 능가합니다.
1세대 Mamba를 기반으로 제작되었습니다.
맘바는상태공간 모델(SSM, 상태 공간 모델). RNN과 CNN의 특성을 결합하고, 현재 입력을 기반으로 정보를 선택적으로 전파하거나 잊어버릴 수 있는 선택 메커니즘을 도입하여 텍스트 정보 처리의 효율성을 향상시킵니다.
동시에 재귀 모드에서 실행되는 하드웨어 인식 병렬 알고리즘을 설계하여 GPU 메모리 수준 간의 IO 액세스를 방지하고 컴퓨팅 효율성을 향상시킵니다.
마지막으로 Transformer의 SSM 아키텍처와 MLP 블록을 단일 블록으로 결합하여 아키텍처를 단순화합니다.
Transformer에서 Mamba로 변경하면 Falcon 모델이 메모리를 늘리지 않고도 임의로 긴 시퀀스를 처리할 수 있습니다. 특히 단일 A10 24GB GPU에 적합합니다.
또한 이 연구에서는 시퀀스 처리에 대한 두 가지 서로 다른 접근 방식에 대해서도 논의합니다.
병렬 사전 채우기 방법은 GPU 병렬 처리에 적합하고 메모리 요구 사항이 높습니다. 순차 채우기 방법은 SSM 모델에 적합하며 메모리 제약을 받지 않고 모든 길이의 시퀀스를 처리할 수 있습니다.
대규모 훈련 안정성을 보장하기 위해 Falcon Mamba 모델은 추가 RMS 정규화 계층을 사용합니다.
RMS 정규화 레이어는 LayerNorm의 계산 과정을 단순화하고 계산량을 줄일 수 있습니다.
이 모델은 주로 RefedWeb 데이터 세트와 공개 데이터에서 가져온 5500GT 데이터를 사용하여 학습되었습니다. 훈련 과정은 기본적으로 균일하며, 훈련 후반에 소량의 고품질 계획 데이터가 추가되어 최종 단계에서 모델이 최적화되는 데 도움이 됩니다.
배치 크기가 1이고 프롬프트 단어 길이가 1-130k인 H100에서 토큰을 생성하는 테스트에서 Falcon Mamba는 다음을 수행할 수 있었습니다.새로운 토큰 생성 시 안정적인 처리량 유지이는 성능이 텍스트 길이에 영향을 받지 않으며 성능 저하 없이 긴 시퀀스를 안정적으로 처리할 수 있음을 의미합니다.
Falcon Mamba는 AutoModelForCausalLM 및 pipline을 포함한 여러 Hugging Face API를 지원합니다.
추가로 50억 개의 토큰을 미세 조정하여 모델을 더욱 정확하게 만들 수 있는 명령 조정 버전도 출시되었습니다.
최신 모델은 Hugging Face와 GitHub에서 만나보실 수 있습니다~
참조 링크:
https://huggingface.co/blog/falconmamba#hardware-performance