2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI
Ersetzen Sie einfach die Transformer-Architektur, und die Leistung wird in allen Aspekten sofort verbessert, sodass Sie zum besten Open-Source-Modell derselben Größenordnung werden können!
(Der Aufmerksamkeitsmechanismus existiert nicht mehr)
Das ist das NeuesteFalcon Mamba 7BModell.
es nutztModellarchitektur der Mamba-Zustandsraumspracheum verschiedene Textgenerierungsaufgaben zu erledigen.
Durch die Aufhebung des herkömmlichen Aufmerksamkeitsmechanismus wird das Problem der geringen Recheneffizienz bei der Verarbeitung langer Sequenzen durch das Modell effektiv verbessert.
es kann damit umgehenunendlich langReihenfolge, aber der Speicherbedarf erhöht sich nicht.
Egal wie lang der Kontext ist,Die Zeit zum Generieren jedes Tokens ist grundsätzlich gleich。
Dadurch wurde die Leistung des Falcon Mamba-Modells in allen Aspekten verbessert und übertrifft viele Transformer-Architekturmodelle wie Llama-3.1 (8B), Mistral (7B) und Falcon-2 (11B).
Die oben genannten Ergebnisse wurden vom Technology Innovation Institute (TII) in Abu Dhabi, Vereinigte Arabische Emirate, vorgelegt, dem Entwicklungsteam des Falcon-Modells.
Diese Serie enthält insgesamt vier Modelle: Basisversion, Befehls-Feinabstimmungsversion, 4-Bit-Version und Befehls-Feinabstimmungs-4-Bit-Version.
Das neueste Modell ist unter der TII Falcon License 2.0 geöffnet, die unter der Apache 2.0-Lizenz steht.
Internetnutzer riefen: „Die Spielregeln ändern sich!“
Das weltweit erste Open-Source-SSLM
Leistungstechnisch übertrifft Falcon Mamba 7B viele Open-Source-Modelle in allen Belangen.
Es basiert auf der Mamba der ersten Generation.
Mamba ist eineZustandsraummodell(SSM, State Space Model). Es kombiniert die Eigenschaften von RNN und CNN und verbessert die Effizienz der Verarbeitung von Textinformationen durch die Einführung eines Auswahlmechanismus, der es dem Modell ermöglicht, Informationen basierend auf der aktuellen Eingabe selektiv weiterzugeben oder zu vergessen.
Gleichzeitig wird ein hardwarebewusster paralleler Algorithmus entwickelt, der im rekursiven Modus ausgeführt wird, wodurch E/A-Zugriffe zwischen GPU-Speicherebenen vermieden und die Recheneffizienz verbessert werden.
Schließlich wird auch die Architektur vereinfacht, indem die SSM-Architektur und der MLP-Block im Transformer in einem einzigen Block zusammengefasst werden.
Durch den Wechsel von Transformer zu Mamba kann das Falcon-Modell beliebig lange Sequenzen verarbeiten, ohne den Speicher zu erhöhen. Besonders geeignet für eine einzelne A10 24GB GPU.
Die Studie diskutiert auch zwei unterschiedliche Ansätze zur Verarbeitung von Sequenzen.
Die parallele Vorfüllmethode eignet sich für die GPU-Parallelverarbeitung und erfordert einen hohen Speicherbedarf. Die sequenzielle Füllmethode eignet sich für SSM-Modelle und kann Sequenzen beliebiger Länge verarbeiten, ohne dass Speicherbeschränkungen gelten.
Um eine groß angelegte Trainingsstabilität zu gewährleisten, verwendet das Falcon Mamba-Modell eine zusätzliche RMS-Normalisierungsschicht.
Die RMS-Normalisierungsschicht kann den Berechnungsprozess von LayerNorm vereinfachen und den Berechnungsaufwand reduzieren.
Das Modell wurde mit 5500GT-Daten trainiert, die hauptsächlich aus dem RefedWeb-Datensatz und öffentlichen Daten stammen. Der Trainingsprozess ist grundsätzlich einheitlich und in den späteren Phasen des Trainings wird eine kleine Menge hochwertiger Planungsdaten hinzugefügt, die zur Optimierung des Modells in der Endphase beitragen.
Beim Test der Generierung von Tokens auf H100 mit einer Stapelgröße von 1 und einer Eingabeaufforderungswortlänge von 1-130.000 gelang Falcon Mamba diesSorgen Sie für einen stabilen Durchsatz beim Generieren neuer TokenDies bedeutet, dass seine Leistung nicht durch die Textlänge beeinträchtigt wird und lange Sequenzen stabil und ohne Leistungseinbußen verarbeitet werden können.
Falcon Mamba unterstützt mehrere Hugging Face-APIs, einschließlich AutoModelForCausalLM und pipline.
Außerdem wurde eine Version zur Anweisungsoptimierung auf den Markt gebracht, die das Modell durch Feinabstimmung von weiteren 5 Milliarden Token genauer machen kann.
Auf die neuesten Modelle kann auf Hugging Face und GitHub~ zugegriffen werden
Referenzlinks:
https://huggingface.co/blog/falconmamba#hardware-performance