Meta ist in der Lage, mehrere Modalitäten wahrzunehmen und entsprechend der Situation zu handeln, und schlägt den modalitätsbewussten Experten hybrid

Meta ist in der Lage, mehrere Modalitäten wahrzunehmen und entsprechend der Situation zu handeln. Daher bietet Meta einen modalitätsbewussten Expertenhybrid an

2024-08-14

Maschinenherzbericht

Gemischte Experten haben auch Spezialisierungen in ihrem Beruf.

Bei aktuellen Basismodellen mit gemischten Modalitäten besteht ein üblicher Architekturentwurf darin, Encoder oder Decoder bestimmter Modalitäten zu fusionieren. Diese Methode weist jedoch Einschränkungen auf: Sie kann keine Informationen aus verschiedenen Modalitäten integrieren und es ist schwierig, Inhalte auszugeben, die mehrere Modalitäten enthalten.

Um diese Einschränkung zu überwinden, hat das Chameleon-Team von Meta FAIR in der kürzlich erschienenen Arbeit „Chameleon: Mixed-modal Early-Fusion Foundation Models“ eine neue einzelne Transformer-Architektur vorgeschlagen, die den nächsten Token basierend auf den vorhergesagten gemischt-modalen Sequenzen vorhersagen kann Die aus diskreten Bild- und Text-Tokens bestehenden Elemente werden modelliert, um eine nahtlose Schlussfolgerung und Generierung zwischen verschiedenen Modalitäten zu ermöglichen.

Nach Abschluss des Vortrainings mit etwa 10 Billionen gemischtmodalen Token hat Chameleon die Fähigkeit bewiesen, sich an ein breites Spektrum an Visionen und Sprachen anzupassen und eine Vielzahl unterschiedlicher nachgelagerter Aufgaben gut zu bewältigen. Besonders beeindruckend ist die Leistung von Chameleon bei der Generierung gemischtmodaler langer Antworten. Es übertrifft sogar kommerzielle Modelle wie Gemini 1.0 Pro und GPT-4V. Bei einem Modell wie Chameleon, bei dem in den frühen Phasen des Modelltrainings verschiedene Modalitäten gemischt werden, erfordert die Erweiterung seiner Fähigkeiten jedoch die Investition einer großen Rechenleistung.

Basierend auf den oben genannten Problemen führte das Meta FAIR-Team einige Untersuchungen und Untersuchungen zur gerouteten Sparse-Architektur durch und schlug MoMa vor: eine modalitätsbewusste Experten-Hybridarchitektur.

Titel des Papiers: MoMa: Effizientes Early-Fusion-Pre-Training mit einer Mischung aus Modalitätsbewussten Experten

Papieradresse: https://arxiv.org/pdf/2407.21770

Frühere Untersuchungen haben gezeigt, dass diese Art von Architektur die Fähigkeiten einmodaler Basismodelle effektiv erweitern und auch die Leistung multimodaler kontrastiver Lernmodelle verbessern kann. Allerdings ist der Einsatz für das frühe Modelltraining, das verschiedene Modalitäten integriert, immer noch ein Thema mit Chancen und Herausforderungen, und nur wenige Menschen haben sich damit befasst.

Die Forschung des Teams basiert auf der Erkenntnis, dass verschiedene Modalitäten von Natur aus heterogen sind – Text- und Bild-Tokens weisen unterschiedliche Informationsdichten und Redundanzmuster auf.

Während das Team diese Token in eine einheitliche Fusionsarchitektur integriert, schlägt es auch vor, das Framework durch die Integration von Modulen für bestimmte Modalitäten weiter zu optimieren. Das Team nennt dieses Konzept Modalitätsbewusste Sparsität, kurz MaS; es ermöglicht dem Modell, die Eigenschaften jeder Modalität besser zu erfassen und gleichzeitig eine starke modalübergreifende Integrationsleistung aufrechtzuerhalten.

Frühere Studien wie VLMo, BEiT-3 und VL-MoE haben die Mixed-Modality-Experts-Methode (MoME/Mixture-of-Modality-Experts) übernommen, um visuelle Sprachkodierer und maskierte Sprachmodellierung von FAIR zu trainieren. Das Forschungsteam hat die Methode übernommen den nutzbaren Umfang von MoE einen Schritt weiter.

Modellarchitektur

frühe Fusion

Das in diesem Artikel vorgeschlagene neue Modell basiert auf der frühen Fusionsarchitektur von Chameleon, die Bilder und Text als eine Reihe diskreter Token in einem einheitlichen Transformer darstellt. Der Kern von Chameleon ist ein Transformer-basiertes Modell, das einen Selbstaufmerksamkeitsmechanismus auf eine kombinierte Sequenz von Bild- und Text-Tokens anwendet. Dadurch kann das Modell komplexe Zusammenhänge innerhalb und zwischen Modalitäten erfassen. Das Modell wird mit dem Ziel der Vorhersage des nächsten Tokens trainiert, wobei Text- und Bild-Tokens auf autoregressive Weise generiert werden.

In Chameleon verwendet das Bild-Tokenisierungsschema einen lernenden Bild-Tokenizer, der ein 512 × 512-Bild auf der Grundlage eines Codebuchs der Größe 8192 in 1024 diskrete Token kodiert. Für die Textsegmentierung wird ein BPE-Tokenizer mit einer Vokabulargröße von 65.536 verwendet, der Bild-Tokens enthält. Diese einheitliche Wortsegmentierungsmethode ermöglicht es dem Modell, jede Sequenz miteinander verflochtener Bild- und Text-Tokens nahtlos zu verarbeiten.

Mit dieser Methode erbt das neue Modell die Vorteile einer einheitlichen Darstellung, guter Flexibilität, hoher Skalierbarkeit und Unterstützung für End-to-End-Lernen.

Auf dieser Grundlage (Abbildung 1a) führte das Team außerdem eine modalitätsbewusste Sparsity-Technologie ein, um die Effizienz und Leistung des frühen Fusionsmodells weiter zu verbessern.

Breitenerweiterung: Modalitätsbewusste Hybridexperten

Das Team schlägt einen Ansatz zur Breitenskalierung vor: Erweiterung der standardmäßigen Mixed-Expert-Architektur (MoE) durch Integration der modalitätsbewussten Modulsparsity in Vorwärtsmodule.

Diese Methode basiert auf der Erkenntnis, dass Token unterschiedlicher Modi unterschiedliche Eigenschaften und Informationsdichten aufweisen.

Durch die Bildung verschiedener Expertengruppen für jede Modalität kann das Modell spezielle Verarbeitungspfade entwickeln und gleichzeitig die Fähigkeit beibehalten, Informationen über Modalitäten hinweg zu integrieren.

Abbildung 1b veranschaulicht die Schlüsselkomponenten dieser modalitätsbewussten Expertenmischung (MoMa). Vereinfacht ausgedrückt werden zunächst Experten für jede spezifische Modalität gruppiert, dann wird hierarchisches Routing implementiert (unterteilt in modalitätsbewusstes Routing und intramodales Routing) und schließlich werden Experten ausgewählt. Den detaillierten Ablauf entnehmen Sie bitte dem Originalpapier.

Im Allgemeinen lautet die formale Definition des MoMa-Moduls für ein Eingabetoken x:

Nach MoMa-Berechnungen verwendete das Team weiterhin Restverbindungen und die Swin-Transformer-Normalisierung.

Tiefenmischung (MoD)

Frühere Forscher haben auch die Einführung von Sparsity in die Tiefendimension untersucht. Ihr Ansatz bestand darin, entweder bestimmte Schichten zufällig zu verwerfen oder lernbare Router zu verwenden.

Der Ansatz des Teams basiert auf dem zweiten Ansatz und integriert gleichzeitig die kürzlich vorgeschlagene Hybrid Depth (MoD)-Technologie. Weitere Informationen zu MoD finden Sie im Heart of Machine-Bericht „DeepMind verbessert Transformer, Forward-Pass-FLOPs können um bis zur Hälfte reduziert werden.“

Wie in der folgenden Abbildung dargestellt, besteht der Ansatz des Teams insbesondere darin, MoD vor dem Hybrid-Experten-Routing (MoE) in jede MoD-Schicht zu integrieren und so sicherzustellen, dass MoD vor der Modaltrennung auf den gesamten Datenstapel angewendet werden kann.

Argumentation

In der Inferenzphase können wir das Experten-Auswahlrouting des MoE oder das Layer-Auswahlrouting des MoD nicht direkt verwenden, da Top-k-Auswahlen (Auswahl des Top-k) in einem Datenstapel den Kausalzusammenhang zerstören.

Um den Kausalzusammenhang der Argumentation sicherzustellen, führte das Forschungsteam, inspiriert durch das oben genannte MoD-Papier, einen Hilfsrouter ein, dessen Aufgabe darin besteht, die Möglichkeit der Auswahl des Tokens durch einen bestimmten Experten oder eine bestimmte Schicht nur auf der Grundlage des Verborgenen vorherzusagen Darstellung des Tokens.

Upcycling

Für eine von Grund auf trainierte MoE-Architektur gibt es eine einzigartige Schwierigkeit hinsichtlich der Optimierung des Darstellungsraums und des Routing-Mechanismus. Das Team stellte fest, dass der MoE-Router für die Aufteilung des Repräsentationsraums für jeden Experten verantwortlich ist. In den frühen Phasen des Modelltrainings ist dieser Darstellungsraum jedoch nicht optimal, was dazu führt, dass die durch das Training erhaltene Routing-Funktion nicht optimal ist.

Um diese Einschränkung zu überwinden, schlugen sie eine Upgrade-Methode vor, die auf dem Artikel „Sparse upcycling: Training mix-of-experts from Dense Checkpoints“ von Komatsuzaki et al. basiert.

Konkret wird zunächst eine Architektur mit einem FFN-Experten für jede Modalität trainiert. Nach einigen voreingestellten Schritten wird das Modell aktualisiert und transformiert. Die spezifische Methode besteht darin, die FFN jeder spezifischen Modalität in ein vom Experten ausgewähltes MoE-Modul umzuwandeln und jeden Experten für die erste Stufe der Expertenschulung zu initialisieren. Dadurch wird der Lernratenplaner zurückgesetzt, während der Datenladestatus der vorherigen Phase beibehalten wird, um sicherzustellen, dass die aktualisierten Daten in der zweiten Trainingsphase verwendet werden können.

Um eine stärkere Spezialisierung der Experten zu fördern, nutzte das Team auch Gumbel-Rauschen, um die MoE-Routing-Funktion zu verbessern, sodass der neue Router Experten auf differenzierbare Weise abfragen kann.

Diese Upgrade-Methode in Verbindung mit der Gumbel-Sigmoid-Technologie kann die Einschränkungen der erlernten Router überwinden und dadurch die Leistung der neu vorgeschlagenen modalitätsbewussten Sparse-Architektur verbessern.

Effizienzoptimierung

Um das verteilte Training von MoMa zu erleichtern, hat das Team Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel) eingeführt. Im Vergleich zum herkömmlichen MoE weist diese Methode jedoch einige einzigartige Effizienzprobleme auf, darunter Probleme beim Lastausgleich und Effizienzprobleme bei der fachmännischen Ausführung.

Für das Lastausgleichsproblem entwickelte das Team eine ausgewogene Datenmischmethode, die das Text-zu-Bild-Datenverhältnis auf jeder GPU im Einklang mit dem Expertenverhältnis hält.

Im Hinblick auf die Effizienz der Ausführung durch Experten hat das Team einige Strategien untersucht, die dazu beitragen können, die Ausführungseffizienz von Experten in verschiedenen Modalitäten zu verbessern:

Beschränken Sie Experten in jeder Modalität auf isomorphe Experten und verbieten Sie die Weiterleitung von Text-Tokens an Bildexperten und umgekehrt;

Verwenden Sie Blocksparsity, um die Ausführungseffizienz zu verbessern.

Wenn die Anzahl der Modalitäten begrenzt ist, werden Experten für verschiedene Modalitäten nacheinander eingesetzt.

Da jede GPU im Experiment genügend Token verarbeitete, stellte die Hardwareauslastung kein großes Problem dar, selbst wenn mehrere gestapelte Matrixmultiplikationen verwendet wurden. Daher ist das Team davon überzeugt, dass die sequentielle Ausführungsmethode für den aktuellen Umfang der experimentellen Umgebung die bessere Wahl ist.

Weitere Optimierungen

Um den Durchsatz weiter zu verbessern, nutzte das Team auch mehrere andere Optimierungstechniken.

Dazu gehören allgemeine Optimierungsvorgänge wie die Reduzierung des Gradientenkommunikationsvolumens und die automatisierte GPU-Kernfusion. Das Forschungsteam implementierte auch die Diagrammoptimierung durch Torch.compile.

Darüber hinaus haben sie einige Optimierungstechniken für MoMa entwickelt, darunter das Multiplexen modaler Token-Indizes über verschiedene Schichten hinweg, um Geräte zwischen CPU und GPU möglichst effizient zu synchronisieren.

Experiment

aufstellen

Der im Experiment verwendete Vortrainingsdatensatz und der Vorverarbeitungsprozess sind die gleichen wie bei Chameleon. Um die Skalierungsleistung zu bewerten, trainierten sie das Modell mit mehr als einer Billion Token.

Tabelle 1 enthält die detaillierte Konfiguration dichter und spärlicher Modelle.

Skalierung der Leistung auf verschiedenen Rechenebenen

Das Team analysierte die Skalierungsleistung verschiedener Modelle auf verschiedenen Rechenebenen (FLOPs), entsprechend drei Größen dichter Modelle: 90M, 435M und 1,4B.

Experimentelle Ergebnisse zeigen, dass ein spärliches Modell, das nur 1/η der gesamten FLOPs verwendet, den Verlust vor dem Training eines dichten Modells äquivalenter FLOPs erreichen kann (η stellt den Beschleunigungsfaktor vor dem Training dar).

Modale Entbündelung

Durch die Einführung einer modalitätsspezifischen Expertengruppierung kann die Effizienz vor dem Training von Modellen unterschiedlicher Größe verbessert werden, was insbesondere für Bildmodalitäten von Vorteil ist. Wie in Abbildung 3 dargestellt, übertrifft die moe_1t1i-Konfiguration mit 1 Bildexperten und 1 Textexperten das entsprechende dichte Modell deutlich.

Durch die Erhöhung der Anzahl der Experten pro Modalgruppe kann die Modellleistung weiter verbessert werden.

Kombinieren Sie Tiefe und Fachwissen

Das Team beobachtete, dass die Konvergenzgeschwindigkeit des Trainingsverlusts verbessert wird, wenn MoE, MoD und deren Kombinationen verwendet werden. Wie in Abbildung 4 dargestellt, kann das Hinzufügen von MoD (mod_moe_1t1i) zur moe_1t1i-Architektur die Modellleistung über verschiedene Modellgrößen hinweg erheblich verbessern.

Darüber hinaus kann mod_moe_1t1i in verschiedenen Modellgrößen und -modi moe_4t4i erreichen oder sogar übertreffen, was zeigt, dass die Einführung von Sparsity in der Tiefendimension auch die Trainingseffizienz effektiv verbessern kann.

Andererseits können Sie auch erkennen, dass die Vorteile des Stapelns von MoD und MoE allmählich abnehmen.

Erweitern Sie die Anzahl der Experten

Um die Auswirkungen einer Ausweitung der Expertenzahl zu untersuchen, führte das Team weitere Ablationsexperimente durch. Sie untersuchten zwei Szenarien: die Zuweisung einer gleichen Anzahl von Experten zu jeder Modalität (ausgewogen) und die Zuweisung einer unterschiedlichen Anzahl von Experten zu jeder Modalität (unausgewogen). Die Ergebnisse sind in Abbildung 5 dargestellt.

Für die ausgewogene Einstellung ist aus Abbildung 5a ersichtlich, dass mit zunehmender Anzahl an Experten der Schulungsverlust deutlich sinkt. Text- und Bildverluste weisen jedoch unterschiedliche Skalierungsmuster auf. Dies legt nahe, dass die inhärenten Merkmale jeder Modalität zu unterschiedlichen Verhaltensweisen bei der spärlichen Modellierung führen.

Für die unausgeglichene Einstellung vergleicht Abbildung 5b drei verschiedene Konfigurationen mit einer äquivalenten Gesamtzahl von Experten (8). Es ist ersichtlich, dass das Modell im Allgemeinen bei dieser Modalität umso besser abschneidet, je mehr Experten es für eine Modalität gibt.

Upgrade

Selbstverständlich hat das Team auch die Wirkung der oben genannten Upgrades überprüft. Abbildung 6 vergleicht die Trainingskurven verschiedener Modellvarianten.

Die Ergebnisse zeigen, dass ein Upgrade das Modelltraining tatsächlich weiter verbessern kann: Wenn die erste Stufe 10.000 Schritte umfasst, kann ein Upgrade den 1,2-fachen FLOP-Vorteil bringen, und wenn die Anzahl der Schritte 20.000 beträgt, gibt es auch einen 1,16-fachen FLOP-Vorteil.

Darüber hinaus ist zu beobachten, dass mit fortschreitendem Training die Leistungslücke zwischen dem aktualisierten Modell und dem von Grund auf trainierten Modell zunimmt.

Durchsatzanalyse

Sparse-Modelle bieten oft keine unmittelbaren Leistungssteigerungen, da spärliche Modelle die Dynamik erhöhen und damit verbundene Datenausgleichsprobleme verursachen. Um den Einfluss der neu vorgeschlagenen Methode auf die Trainingseffizienz zu quantifizieren, verglich das Team den Trainingsdurchsatz verschiedener Architekturen in Experimenten mit üblicherweise kontrollierten Variablen. Die Ergebnisse sind in Tabelle 2 dargestellt.

Es ist ersichtlich, dass die modalitätsbasierte Sparse-Leistung im Vergleich zu dichten Modellen bessere Kompromisse zwischen Qualität und Durchsatz erzielt und mit zunehmender Anzahl von Experten eine angemessene Skalierbarkeit aufweisen kann. Andererseits erzielen die MoD-Varianten zwar die besten absoluten Verluste, sind aber aufgrund zusätzlicher Dynamik und Ungleichgewichte tendenziell auch rechenintensiver.

Inferenzzeitleistung

Das Team bewertete außerdem die Leistung des Modells anhand gespeicherter Sprachmodellierungsdaten und nachgelagerter Aufgaben. Die Ergebnisse sind in den Tabellen 3 und 4 dargestellt.

Wie in Tabelle 3 gezeigt, übertrifft das 1,4B MoMa 1t1i-Modell durch den Einsatz mehrerer Bildexperten das entsprechende dichte Modell bei den meisten Metriken, mit Ausnahme der bedingten Bild-zu-Text-Ratlosigkeitsmetriken auf COCO und Flickr. Eine weitere Erweiterung der Expertenzahl kann auch die Leistung verbessern, wobei 1,4 Milliarden MoE 8x die beste Bild-zu-Text-Leistung erzielen.

Darüber hinaus eignet sich das 1,4B MoE 8x-Modell, wie in Tabelle 4 gezeigt, auch sehr gut für Text-zu-Text-Aufgaben. 1,4B MoMa 4t4i schneidet bei allen bedingten Bild-Ratlosigkeitsmetriken am besten ab, während die Text-Ratlosigkeit bei den meisten Benchmarks ebenfalls sehr nahe bei 1,4B MoE 8x liegt.

Insgesamt erzielt das 1.4B MoMa 4t4i-Modell die besten Modellierungsergebnisse bei gemischten Text- und Bildmodalitäten.

Für weitere Einzelheiten lesen Sie bitte das Originalpapier.

Nachricht

Meta ist in der Lage, mehrere Modalitäten wahrzunehmen und entsprechend der Situation zu handeln. Daher bietet Meta einen modalitätsbewussten Expertenhybrid an

Einführung

Meine Kontaktdaten