Nachricht

Die Non-Transformer-Architektur ist das erste rein unauffällige große Modell, das Llama 3.1 übertrifft

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherzbericht

Herausgeber: Du Wei, Chen Chen

Das große Modell der Mamba-Architektur stellte Transformer erneut vor eine Herausforderung.

Wird sich das Mamba-Architekturmodell dieses Mal endlich durchsetzen? Seit seiner Einführung im Dezember 2023 hat sich Mamba zu einem starken Konkurrenten von Transformer entwickelt.

Seitdem sind weiterhin Modelle erschienen, die die Mamba-Architektur verwenden, wie beispielsweise Codestral 7B, das erste von Mistral veröffentlichte Open-Source-Großmodell auf Basis der Mamba-Architektur.

Heute veröffentlichte das Technology Innovation Institute (TII) von Abu Dhabi eineNeues Open-Source-Mamba-Modell – Falcon Mamba 7B



Fassen wir zunächst die Highlights der Falcon Mamba 7B zusammen: Sie kann Sequenzen beliebiger Länge verarbeiten, ohne den Speicher zu erhöhen, und kann auf einer einzigen 24-GB-A10-GPU ausgeführt werden.

Falcon Mamba 7B kann derzeit bei Hugging Face besichtigt und verwendet werden. Es handelt sich um ein reines Kausal-Decoder-Modell mit einem RomanArchitektur des Mamba State Space Language Model (SSLM).um verschiedene Textgenerierungsaufgaben zu erledigen.

Den Ergebnissen zufolge übertraf die Falcon Mamba 7B in einigen Benchmarks die führenden Modelle ihrer Größenklasse, darunter Metas Llama 3 8B, Llama 3.1 8B und Mistral 7B.



Falcon Mamba 7B ist in vier Variantenmodelle unterteilt, nämlich die Basisversion, die fein abgestimmte Befehlsversion, die 4-Bit-Version und die fein abgestimmte 4-Bit-Befehlsversion.



Als Open-Source-Modell übernimmt Falcon Mamba 7B die Apache 2.0-basierte Lizenz „Falcon License 2.0“, um Forschungs- und Anwendungszwecke zu unterstützen.



Hugging Face-Adresse: https://huggingface.co/tiiuae/falcon-mamba-7b

Falcon Mamba 7B ist nach Falcon 180B, Falcon 40B und Falcon 2 auch das vierte Open-Source-Modell von TII und ist dasDas erste Mamba SSLM-Architekturmodell



Das erste universelle reine Mamba-Großmodell

Transformer-basierte Modelle dominieren seit langem die generative KI. Forscher haben jedoch festgestellt, dass Transformer-Architekturen bei der Verarbeitung längerer Textinformationen auf Schwierigkeiten stoßen können.

Im Wesentlichen versteht der Aufmerksamkeitsmechanismus in Transformer den Kontext, indem er jedes Wort (oder Token) mit jedem Wort im Text vergleicht, was mehr Rechenleistung und Speicherbedarf erfordert, um das wachsende Kontextfenster zu bewältigen.

Wenn die Rechenressourcen jedoch nicht entsprechend skaliert werden, verlangsamt sich die Modellinferenz und Text, der eine bestimmte Länge überschreitet, kann nicht verarbeitet werden. Um diese Hindernisse zu überwinden, hat sich die State Space Language Model (SSLM)-Architektur, die durch kontinuierliche Aktualisierung des Zustands während der Verarbeitung von Wörtern arbeitet, als vielversprechende Alternative herausgestellt und wird von vielen Institutionen, einschließlich TII, eingesetzt. Diese Art von Architektur.

Falcon Mamba 7B nutzt die Mamba SSM-Architektur, die ursprünglich in einem Artikel vom Dezember 2023 von Forschern der Carnegie Mellon University und der Princeton University vorgeschlagen wurde.

Die Architektur verwendet einen Auswahlmechanismus, der es dem Modell ermöglicht, seine Parameter basierend auf Eingaben dynamisch anzupassen. Auf diese Weise kann sich das Modell auf bestimmte Eingaben konzentrieren oder diese ignorieren, ähnlich wie der Aufmerksamkeitsmechanismus in Transformer funktioniert, und bietet gleichzeitig die Möglichkeit, lange Textsequenzen (z. B. ganze Bücher) zu verarbeiten, ohne dass zusätzlicher Speicher oder Rechenressourcen erforderlich sind.

TII stellte fest, dass der Ansatz das Modell für Aufgaben wie maschinelle Übersetzung auf Unternehmensebene, Textzusammenfassung, Computer-Vision- und Audioverarbeitungsaufgaben sowie Schätzung und Vorhersage geeignet macht.

Trainingsdaten

Falcon Mamba 7BTrainingsdaten bis 5500GT, besteht hauptsächlich aus dem RefinedWeb-Datensatz, ergänzt durch hochwertige technische Daten, Codedaten und mathematische Daten aus öffentlichen Quellen. Alle Daten werden durch den Falcon-7B/11B-Tokenizer tokenisiert.

Ähnlich wie andere Modelle der Falcon-Serie verwendet Falcon Mamba 7B eine mehrstufige Trainingsstrategie für das Training.Die Kontextlänge wurde von 2048 auf 8192 erhöht. Darüber hinaus wählt TII, inspiriert vom Konzept des Kurslernens, während der gesamten Trainingsphase sorgfältig gemischte Daten aus und berücksichtigt dabei die Vielfalt und Komplexität der Daten.

In der letzten Trainingsphase verwendet TII einen kleinen Satz hochwertiger kuratierter Daten (d. h. Beispiele von Fineweb-edu), um die Leistung weiter zu verbessern.

Trainingsprozess, Hyperparameter

Der größte Teil des Trainings für die Falcon Mamba 7B istAuf 256 H100 80-GB-GPUs durchgeführt, wird eine Strategie übernommen, die 3D-Parallelität (TP=1, PP=1, DP=256) und ZeRO kombiniert. Die folgende Abbildung zeigt die Details der Modell-Hyperparameter, einschließlich Genauigkeit, Optimierer, maximale Lernrate, Gewichtsabfall und Chargengröße.



Insbesondere wurde Falcon Mamba 7B mit dem AdamW-Optimierer und dem WSD-Lernratenplan (Warm-Stabilize-Decay) trainiert, und die Stapelgröße stieg während der ersten 50 GT des Trainings von b_min=128 auf b_max=2048.

In der stabilen Phase verwendet TII eine maximale Lernrate η_max=6,4×10^−4 und reduziert sie dann mithilfe eines exponentiellen Zeitplans über 500GT auf ein Minimum. Gleichzeitig nutzt TII BatchScaling in der Beschleunigungsphase, um die Lernrate eta neu anzupassen, sodass die Adam-Rauschentemperatur konstant bleibt.





Die gesamte Modellschulung dauerte etwa zwei Monate

Modellbewertung

Um zu verstehen, wie Falcon Mamba 7B im Vergleich zu führenden Transformer-Modellen seiner Größenklasse abschneidet, führte die Studie einen Test durch, um die maximale Kontextlänge zu ermitteln, die das Modell mit einer einzelnen 24-GB-A10-GPU bewältigen kann.

Die Ergebnisse zeigen, dass Falcon Mamba in der Lage ist, sich an größere Sequenzen anzupassen als aktuelle Transformer-ModelleTheoretisch in der Lage, unbegrenzte Kontextlängen aufzunehmen



Als Nächstes haben wir den Durchsatz der Modellgenerierung mit einer Stapelgröße von 1 und einer Hardwareeinstellung von H100 GPU gemessen. Die Ergebnisse sind in der folgenden Abbildung dargestellt. Falcon Mamba generiert alle Token mit konstantem Durchsatz ohne Erhöhung des CUDA-Spitzenspeichers. Bei Transformer-Modellen steigt der Spitzenspeicher und die Generierungsgeschwindigkeit verlangsamt sich, wenn die Anzahl der generierten Token steigt.



Selbst bei branchenüblichen Benchmarks schneidet das neue Modell besser ab als beliebte Transformatormodelle sowie reine und hybride Zustandsraummodelle oder kommt ihnen nahe.

Beispielsweise erzielte Falcon Mamba 7B in den Benchmarks Arc, TruthfulQA und GSM8K 62,03 %, 53,42 % bzw. 52,54 % und übertraf damit Llama 3 8 B, Llama 3.1 8B, Gemma 7B und Mistral 7B. Allerdings liegt die Falcon Mamba 7B in den MMLU- und Hellaswag-Benchmarks weit hinter diesen Modellen zurück.



„Die Veröffentlichung von Falcon Mamba 7B stellt einen großen Fortschritt für die Institution dar, der neue Perspektiven inspiriert und die Erforschung intelligenter Systeme vorantreibt“, sagte TII-Hauptforscher Hakim Hacid in einer Erklärung. Am TII erweitern sie die Grenzen von SSLM- und Transformatormodellen, um weitere Innovationen in der generativen KI anzuregen.

Derzeit wurde die Falcon-Sprachmodellreihe von TII mehr als 45 Millionen Mal heruntergeladen und ist damit eine der erfolgreichsten LLM-Versionen in den Vereinigten Arabischen Emiraten.

Das Falcon Mamba 7B-Papier wird bald veröffentlicht, Sie können also einen Moment warten.

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/