Nachricht

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybridexperten (MoE) aus drei Perspektiven

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherzbericht

Herausgeber: Panda W

LLM ist sehr stark und um eine nachhaltige Erweiterung des LLM zu erreichen, ist es notwendig, Methoden zu finden und umzusetzen, die seine Effizienz verbessern können. Der Hybrid Expert (MoE) ist ein wichtiges Mitglied dieser Art von Methode.

In jüngster Zeit verwenden die von verschiedenen Technologieunternehmen vorgeschlagenen neuen Generationen großer Modelle ausnahmslos die Mixture of Experts (MoE)-Methode.

Das Konzept der Hybridexperten wurde erstmals 1991 in der Arbeit „Adaptive Mischungen lokaler Experten“ geboren und seit mehr als 30 Jahren umfassend erforscht und weiterentwickelt. In den letzten Jahren hat diese Technologie mit einer mehr als 30-jährigen Geschichte mit dem Aufkommen und der Entwicklung von spärlich gesteuerten MoE, insbesondere in Kombination mit groß angelegten Sprachmodellen auf Transformer-Basis, neue Dynamik erlangt.

Das MoE-Framework basiert auf einer einfachen, aber wirkungsvollen Idee: Verschiedene Teile des Modells (sogenannte Experten) konzentrieren sich auf unterschiedliche Aufgaben oder verschiedene Aspekte der Daten.

Bei Verwendung dieses Paradigmas sind nur relevante Experten (Experten) an der Verarbeitung einer Eingabe beteiligt, sodass die Rechenkosten kontrolliert werden können und dennoch von einem großen Maß an Fachwissen profitiert werden kann. Daher kann MoE die Fähigkeiten großer Sprachmodelle verbessern, ohne den Rechenaufwand wesentlich zu erhöhen.

Wie in Abbildung 1 dargestellt, hat die MoE-bezogene Forschung stark zugenommen, insbesondere nach der Einführung von Mixtral-8x7B und verschiedenen LLMs auf industrieller Ebene wie Grok-1, DBRX, Arctic und DeepSeek-V2 im Jahr 2024.



Dieses Bild stammt aus einem kürzlich von einem Forschungsteam der Hong Kong University of Science and Technology (Guangzhou) veröffentlichten MoE-Review-Bericht. Es fasst die MoE-bezogene Forschung klar und umfassend zusammen und schlägt eine neue Klassifizierungsmethode zur Klassifizierung dieser Studien vor und Anwendungen.



Titel des Papiers: Eine Umfrage zur Expertenmischung

Papieradresse: https://arxiv.org/pdf/2407.06204

Heart of the Machine hat den Hauptinhalt dieses Überprüfungsberichts zusammengestellt, um den Lesern zu helfen, den aktuellen Entwicklungsüberblick von MoE zu verstehen. Weitere Einzelheiten finden Sie im Originalpapier. Darüber hinaus haben wir am Ende des Artikels einige Berichte zum Thema MoE zusammengestellt.

Experten-Hintergrundwissen mischen

In einem Transformer-basierten Large Language Model (LLM) besteht die Zusammensetzung jeder gemischten Expertenschicht (MoE) normalerweise aus einem „Expertennetzwerk“ {_1, ..., _} gepaart mit einem „Gating-Netzwerk“ G.

Dieses Gated-Netzwerk hat normalerweise die Form eines linearen Netzwerks mit einer Softmax-Aktivierungsfunktion, deren Aufgabe darin besteht, die Eingabe an das entsprechende Expertennetzwerk weiterzuleiten. Die MoE-Schicht befindet sich im Transformer-Modul und hat die Aufgabe, das Forward Network (FFN) auszuwählen, das sich normalerweise nach der Unterschicht Self-Attention (SA) befindet. Diese Platzierung ist von entscheidender Bedeutung, da mit zunehmendem Modellwachstum auch die Rechenanforderungen des FFN steigen. Beispielsweise befinden sich im PaLM-Modell mit 540 Milliarden Parametern 90 % der Parameter in seiner FFN-Schicht.

Um es in mathematischer Form auszudrücken: Jedes Expertennetzwerk_ (normalerweise ein lineares – ReLU – lineares Netzwerk) wird durch W_ parametrisiert, das die gleiche Eingabe x empfängt und eine Ausgabe_ (x; W_) generiert. Gleichzeitig erhält ein Gated-Netzwerk G mit Parametern Θ (normalerweise bestehend aus einem linear-ReLU-linear-Softmax-Netzwerk) die Ausgabe G (x; Θ). Entsprechend der Entwurfsmethode der Gating-Funktion kann die MoE-Schicht grob in die folgenden zwei Kategorien unterteilt werden.



Dichtes MoE

Die dichte gemischte Expertenschicht aktiviert alle Expertennetzwerke {_1, ..., _} während jeder Iteration. Frühe MoE-Studien übernahmen im Allgemeinen diese Strategie. In jüngster Zeit wurden in einigen Forschungsarbeiten dichte MoE wie EvoMoE, MoLE, LoRAMoE und DS-MoE verwendet. Abbildung 2a zeigt die Struktur der dichten MoE-Schicht. Daher kann die Ausgabe der dichten MoE-Schicht wie folgt ausgedrückt werden:



Unter diesen ist (x; Θ) der Gate-Wert vor dem Softmax-Betrieb.

Spärliches MoE

Obwohl die Vorhersagegenauigkeit dichter Hybridexperten im Allgemeinen höher ist, ist auch ihre Rechenlast sehr hoch.

Um dieses Problem zu lösen, führen Shazeer et al. in ihrem Aufsatz „Outrageously large neural Networks: The sparsely-gated mix-of-experts Layer“ eine sparsely-gated MoE-Schicht ein, die in jedem Vorwärtsdurchlauf nur ausgewählte Experten-Teilmengen aktiviert. Diese Strategie erreicht Sparsity, indem die gewichtete Summe der Ergebnisse der Top-K-Experten berechnet wird, anstatt die Ergebnisse aller Experten zu aggregieren. Abbildung 2b zeigt die Struktur dieser spärlichen MoE-Schicht.

Gemäß dem im obigen Artikel vorgeschlagenen Rahmen kann Gleichung 2.2 geändert werden, um den Sparse-Gating-Mechanismus widerzuspiegeln:



Hier ist eine Erklärung: Die Funktion TopK (・, ) behält nur die ersten k Elemente des ursprünglichen Werts des Vektors bei, während die anderen Elemente auf −∞ gesetzt werden. Darauf folgt eine Softmax-Operation, bei der alle −∞-Terme ungefähr Null werden. Der Hyperparameter k sollte entsprechend der spezifischen Anwendung ausgewählt werden. Übliche Optionen sind = 1 oder = 2. Das Hinzufügen des Rauschterms R_noise ist eine gängige Strategie zum Training von MoE-Schichten mit geringem Gating, die die Erkundung unter Experten fördern und die Stabilität des MoE-Trainings verbessern kann.

Obwohl spärliches Gating G (x; Θ) den Parameterraum des Modells erheblich erweitern kann, ohne den entsprechenden Rechenaufwand zu erhöhen, kann es auch zu Lastausgleichsproblemen führen. Das Lastausgleichsproblem bezieht sich auf die ungleichmäßige Lastverteilung zwischen Experten – einige Experten werden häufig eingesetzt, während andere selten oder gar nicht eingesetzt werden.

Um dieses Problem zu lösen, muss jede MoE-Schicht eine zusätzliche Verlustfunktion integrieren, deren Aufgabe darin besteht, jede Token-Charge gleichmäßig an verschiedene Experten zu verteilen. Definieren Sie anhand der Beschreibung der mathematischen Form zunächst einen Abfragestapel B = {x_1, x_2, ..., x_}, der T Token und N Experten enthält. Dann ist sein Hilfslastausgleichsverlust definiert als:



Dabei ist D_i der Anteil der dem Experten i zugewiesenen Token und P_i der Anteil der dem Experten i zugewiesenen Gating-Wahrscheinlichkeiten. Um sicherzustellen, dass der Stapel gleichmäßig auf N Experten verteilt wird, sollte die Lastausgleichsverlustfunktion L_{Load-Balancing} minimiert werden. Wenn jedem Experten die gleiche Anzahl an Token D_ = 1/ und die gleiche Gating-Wahrscheinlichkeit P_ = 1/ zugewiesen wird, wird die optimale Bedingung erreicht:



Zu diesem Zeitpunkt ist die Belastung jedes Experten ausgeglichen.

Im Folgenden bezieht sich der Begriff „MoE“, sofern nicht ausdrücklich anders angegeben, ausschließlich auf „sparse MoE“.

Klassifizierung gemischter Experten

Um Forschern dabei zu helfen, Ziele in der großen Zahl von LLM-Studien zu finden, die MoE nutzen, entwickelte das Team eine Klassifizierungsmethode, um diese Modelle nach drei Aspekten zu klassifizieren: Algorithmusdesign, Systemdesign und Anwendung.

Abbildung 3 zeigt diese Taxonomie und einige repräsentative Forschungsergebnisse.



Im Folgenden finden Sie eine umfassende und ausführliche Einführung in jede Kategorie.

Algorithmendesign von Hybridexperten

Gating-Funktion

Gating-Funktionen (auch Routing-Funktionen oder Router genannt) sind die grundlegende Komponente aller MoE-Architekturen. Sie koordinieren den Einsatz von Expertenberechnungen und kombinieren die Ergebnisse der Experten.

Je nachdem, wie die einzelnen Eingaben verarbeitet werden, kann das Gating in drei Typen unterteilt werden: spärlich, dicht und weich. Der Sparse-Gating-Mechanismus aktiviert einige Experten, während der Dense-Gating-Mechanismus alle Experten aktiviert. Der Soft-Gating-Mechanismus umfasst vollständig differenzierbare Methoden, einschließlich Eingabe-Token-Fusion und Experten-Fusion. Abbildung 4 zeigt die verschiedenen Gating-Funktionen, die im MoE-Modell verwendet werden.



spärlich

Die Sparse-Gating-Funktion aktiviert einen ausgewählten Teil der Experten bei der Verarbeitung jedes Eingabetokens, was als eine Form der bedingten Berechnung angesehen werden kann.

Gating-Funktionen können viele Formen von Gating-Entscheidungen implementieren, z. B. binäre Entscheidungen, spärliche oder kontinuierliche Entscheidungen, zufällige oder deterministische Entscheidungen. Sie wurden eingehend untersucht und können mithilfe verschiedener Formen des Verstärkungslernens und des Backpropagation-Trainings implementiert werden.

Die Studie von Shazeer et al. „Unverschämt große neuronale Netze: Die Sparsely-Gated-Mixed-of-Experts-Schicht“ war der Wegbereiter für eine differenzierbare heuristische Methode unter Verwendung eines zusätzlichen Lastausgleichsverlusts, bei der Experten anhand ihrer Auswahlwahrscheinlichkeiten berechnet werden können ist gewichtet. Dadurch wird Differenzierbarkeit in den Gating-Prozess eingeführt, wodurch die Optimierung der Gating-Funktion durch Gradienten gesteuert werden kann.

Später wurde dieses Paradigma zum vorherrschenden Paradigma im Bereich der MoE-Forschung. Da diese Methode für jedes Eingabetoken einen Experten auswählt, kann man sie sich als tokenselektive Gating-Funktion vorstellen.

Im Folgenden sind die Hauptpunkte dieses Abschnitts aufgeführt. Einzelheiten finden Sie im Originalpapier:

Token-selektives Gating

Hilfsverlust für tokenselektives Gating

Token-Expertenkapazität für selektives Gating

Weitere Fortschritte beim tokenselektiven Gating

Nicht trainierbares tokenselektives Gating

Selektives Gating von Experten



Intensiv

Dense MoE bedeutet, dass bei der Verarbeitung jeder Eingabe alle Experten aktiviert werden.

Obwohl spärliches MoE Effizienzvorteile bietet, begrüßt die Richtung des dichten MoE immer noch Innovationen. Insbesondere die dichte Aktivierung funktioniert gut bei der LoRA-MoE-Feinabstimmung und verursacht für LoRA-Experten einen relativ geringen Rechenaufwand. Dieser Ansatz ermöglicht eine effiziente und flexible Integration mehrerer LoRAs, um verschiedene nachgelagerte Aufgaben zu erledigen. Dadurch bleiben die generativen Fähigkeiten des ursprünglichen vorab trainierten Modells erhalten, während gleichzeitig die einzigartigen Eigenschaften jeder LoRA für jede Aufgabe erhalten bleiben.

weicher Stil

Bei spärlichem MoE besteht ein grundlegendes Problem der diskreten Optimierung darin, zu entscheiden, welche geeigneten Experten jedem Token zugewiesen werden sollen. Um eine ausgewogene Expertenbeteiligung sicherzustellen und nicht zugewiesene Token zu minimieren, sind häufig heuristisch unterstützte Verluste erforderlich. Dieses Problem ist besonders wichtig in Szenarien mit Daten außerhalb der Verteilung (z. B. kleine Inferenzbatches, neuartige Eingaben oder Transferlernen).

Ähnlich wie dichtes MoE nutzen auch Soft-MoE-Methoden alle Experten bei der Verarbeitung jeder Eingabe, wodurch die volle Differenzierbarkeit erhalten bleibt und somit die inhärenten Probleme diskreter Expertenauswahlmethoden vermieden werden. Der Unterschied zwischen Soft MoE und Dense MoE besteht darin, dass ersteres den Rechenaufwand durch die gesteuerte und gewichtete Fusion von Eingabe-Tokens oder Experten verringert.

Experte

In diesem Abschnitt wird die Architektur von Expertennetzwerken im MoE-Framework vorgestellt und die Gating-Funktionen diskutiert, die die Aktivierung dieser Experten koordinieren.

Netzwerkart

Da MoE in die Transformer-Architektur integriert ist, ersetzt es in diesen Modellen häufig das Forward Network (FFN)-Modul. Normalerweise kopiert jeder Experte in der MoE-Ebene die Architektur des FFN, das er ersetzt.

Dieses Paradigma, FFN als Experten einzusetzen, ist immer noch weit verbreitet, es wurden jedoch viele Verbesserungen vorgenommen.

Hyperparameter

Die Größe des spärlichen MoE-Modells wird durch mehrere wichtige Hyperparameter gesteuert, darunter:

Anzahl der Experten pro MoE-Schicht

Größe jedes Experten

Wie oft MoE-Ebenen im gesamten Modell platziert werden

Die Wahl dieser Hyperparameter ist von entscheidender Bedeutung, da sie die Leistung und Recheneffizienz des Modells bei verschiedenen Aufgaben tiefgreifend beeinflusst. Daher werden die optimalen Hyperparameter basierend auf den spezifischen Anwendungsanforderungen und der Computerinfrastruktur ausgewählt. Tabelle 2 zeigt einige Konfigurationen von Modellen, die MoE verwenden.



Darüber hinaus listet Tabelle 3 die Anzahl der Parameter und die Benchmark-Leistung einiger neuerer Open-Source-Modelle auf.



Aktivierungsfunktion

Das auf der dichten Transformer-Architektur basierende spärliche MoE-Modell übernimmt eine Aktivierungsfunktion, die den führenden dichten LLMs wie BERT, T5, GPT und LLAMA ähnelt. Die Aktivierungsfunktionen haben sich von ReLU zu fortgeschritteneren Optionen wie GeLU, GeGLU, SwiGLU usw. weiterentwickelt.

Dieser Trend erstreckt sich auch auf andere Komponenten von MoE-Modellen, die häufig Techniken wie RMSNorm (Root Mean Square Layer Normalization), GQA (Grouped Query Attention) und RoPE (Rotated Position Embedding) umfassen.

Geteilte Experten

DeepSpeed-MoE führt auf innovative Weise die Rest-MoE-Architektur (Residual-MoE) ein, bei der jeder Token von einem festen Experten und einem vom Gate ausgewählten Experten verarbeitet wird, wobei erkannt wird, dass auf jeder Ebene zwei Experten gleichzeitig an der Verarbeitung beteiligt sind Die Kommunikationskosten werden die Top-1-Gating-Methode nicht überschreiten. Diese Methode behandelt den vom Gate ausgewählten MoE-Experten als Fehlerkorrekturhilfe für FFN mit fester Dichte.

Das in NLLB verwendete bedingte MoE-Routing (CMR/Conditional MoE Routing) verwendet ebenfalls eine ähnliche Methode und kombiniert die Ausgabe dichter FFN- und MoE-Schichten.

Das Paradigma, das festes FFN und spärliches MoE integriert, wird oft als gemeinsame Experten bezeichnet, wie in Abbildung 5b dargestellt.



Kürzlich haben Modelle wie DeepSeekMoE, OpenMoE, Qwen1.5-MoE und MoCLE dieses Paradigma übernommen, was darauf hindeutet, dass es sich zu einer Mainstream-Konfiguration entwickelt. Allerdings verwenden DeepSeekMoE und Qwen1.5-MoE mehrere gemeinsame Experten anstelle eines einzelnen.

Experte für Mischparametereffizienz

Parametereffiziente Feinabstimmung (PEFT) ist eine Methode zur Verbesserung der Feinabstimmungseffizienz. Einfach ausgedrückt aktualisiert PEFT bei der Feinabstimmung nur einen kleinen Teil der Parameter des Basismodells.

PEFT ist erfolgreich, aber aufgrund seiner begrenzten trainierbaren Parameter und möglicherweise katastrophaler Vergessensprobleme ist die Methode in Situationen, in denen eine Verallgemeinerung auf mehrere Aufgaben erforderlich ist, schwierig anzuwenden.

Um diese Einschränkungen zu mildern, wurde der Mixed Parameter Efficient Expert (MoPE) geboren, der das MoE-Framework mit PEFT integriert. MoPE integriert den Gating-Mechanismus und die Multi-Experten-Architektur von MoE, und jeder Experte wird mithilfe der PEFT-Technologie erstellt. Diese clevere Kombination kann die Leistung von PEFT in Multitasking-Szenarien erheblich verbessern. Da PEFT außerdem zum Aufbau von Experten verwendet wird, verwendet MoPE weniger Parameter und ist viel ressourceneffizienter als das traditionelle MoE-Modell.

MoPE kombiniert die Multitasking-Eigenschaften von MoE und die Ressourceneffizienz von PEFT und ist eine vielversprechende Forschungsrichtung. Abbildung 6 klassifiziert MoPE nach seiner Position in der Transformer-Modellarchitektur. Eine detailliertere Einführung in die Forschungsergebnisse zu MoPE finden Sie im Originalpapier.



Trainings- und Inferenzlösungen

Hybridexperten machen Fortschritte, und damit auch die damit verbundenen Trainings- und Inferenzlösungen.

Die anfängliche Trainings- und Inferenzlösung erfordert das Training des MoE-Modells von Grund auf und die direkte Verwendung der trainierten Modellkonfiguration zur Durchführung der Inferenz.

Mittlerweile sind jedoch viele neue Paradigmen beim Training und der Inferenz von MoE-Modellen entstanden, einschließlich der Kombination der Vorteile dichter und spärlicher Modelle, um sich gegenseitig zu ergänzen.



Abbildung 7 zeigt die Trainings- und Inferenzlösungen im Zusammenhang mit MoE. Es ist ersichtlich, dass die entstehenden Lösungen in drei Kategorien unterteilt werden können:

Von dicht zu spärlich: Beginnen Sie mit einem dichten Modelltraining und gehen Sie schrittweise zu einer spärlichen MoE-Konfiguration über.

Sparse zu dicht: beinhaltet die Herabstufung des spärlichen MoE-Modells auf eine dichte Form, was für die Implementierung von Inferenz in Hardwareform von Vorteil ist;

Fusion von Expertenmodellen: Integrieren Sie mehrere vorab trainierte dichte Expertenmodelle in ein einheitliches MoE-Modell.

Derivative Technologien von MoE

Der Mix of Expertise (MoE) inspirierte viele verschiedene Variantentechniken. In der Arbeit „Go breiter statt tiefer“ wird beispielsweise WideNet mit einer größeren Modellbreite vorgeschlagen. Die Methode besteht darin, das Vorwärtsnetzwerk (FFN) durch die MoE-Schicht zu ersetzen und gleichzeitig die gemeinsame Trainierbarkeit auf der Transformer-Schicht beizubehalten , mit Ausnahme der Normalisierungsschicht.

Es gibt auch SYT (Sparse Universal Transformer), vorgeschlagen von Tan et al., MoT (Hybrid Token), vorgeschlagen von Antoniak et al., SMoP (Sparse Hybrid Prompter), vorgeschlagen von Choi et al., und Lifelong, vorgeschlagen von Chen et al. MoE, MoD (Mischtiefe), vorgeschlagen von Raposo et al. usw.

Zusammenfassend lässt sich sagen, dass die Entwicklung von MoE-abgeleiteten Technologien einen Trend erkennen lässt: MoE hat immer mehr Funktionen und ist zunehmend an verschiedene Bereiche anpassbar.

Systemdesign von Hybrid-Experten

Während Mixed Expertise (MoE) die Fähigkeiten großer Sprachmodelle verbessern kann, bringt es aufgrund seiner geringen und dynamischen Rechenlast auch neue technische Herausforderungen mit sich.

GShard führt Expertenparallelität ein, mit der segmentierte lokale Token gemäß den Lastausgleichsbeschränkungen der Expertenfunktionen geplant werden können, wodurch paralleles Gating und Expertenberechnungen erreicht werden. Dieses Paradigma ist zu einer grundlegenden Strategie zur Förderung einer effizienten Erweiterung von MoE-Modellen geworden. Wir können uns diesen Ansatz als eine erweiterte Version der Datenparallelität vorstellen – jeder Experte in der MoE-Schicht wird einem anderen Gerät zugewiesen, während alle Nicht-Experten-Schichten auf allen Geräten dupliziert werden.

Wie in Abbildung 8a dargestellt, besteht der Arbeitsablauf der Expertenparallelisierung darin, die folgenden Vorgänge nacheinander auszuführen: Gate-Routing, Eingabekodierung, All-to-All-Planung, Expertenberechnung, All-to-All-Kombination und Ausgabedekodierung.



Im Allgemeinen muss die Eingabegröße eines GEMM groß genug sein, um das Computergerät vollständig auszunutzen. Daher wird die Eingabekodierung verwendet, um die Eingabe-Tokens desselben Experten in einem kontinuierlichen Speicherraum zusammenzufassen, der durch die „Token-Experten-Zuordnung“ im Gate-Routing bestimmt wird. Anschließend besteht die Aufgabe der All-to-All-Planung darin, die Eingabetokens an die entsprechenden Experten auf jedem Gerät zu verteilen. Anschließend werden fachmännische Lokalisierungsberechnungen durchgeführt. Nachdem die Berechnung abgeschlossen ist, wird sie durch eine All-to-All-Kombination zusammengefasst, dann dekodiert und ausgegeben, und das Layout der Originaldaten wird gemäß dem Gating-Index wiederhergestellt.

Darüber hinaus untersuchen einige Forscher die Synergie zwischen Expertenparallelismus und anderen bestehenden Parallelstrategien (wie Tensoren, Pipelines und Sequenzparallelisierung), um die Skalierbarkeit und Effizienz von MoE-Modellen in großen verteilten Umgebungen zu verbessern.

Einige Beispiele für hybride Parallelisierung sind in Abbildung 8 aufgeführt, darunter (b) Daten + Experte + Tensor-Parallelisierung, (c) Daten + Experte + Pipeline-Parallelisierung, (d) Experte + Tensor-Parallelisierung.

Es ist wichtig zu erkennen, dass es komplexe Wechselwirkungen zwischen Recheneffizienz, Kommunikationslast und Speicherbedarf gibt, die von der Wahl der verteilten Parallelisierungsstrategie und auch von unterschiedlichen Hardwarekonfigurationen beeinflusst werden. Daher müssen bei der Umsetzung von Strategien für praktische Anwendungen sorgfältige Kompromisse eingegangen und Anpassungen an bestimmte Szenarien vorgenommen werden.

Anschließend stellte das Team die Systemdesign-Herausforderungen bei der MoE-Modellentwicklung und die Forschungsergebnisse zur Lösung dieser Probleme in drei Hauptabschnitten vor: Computer, Kommunikation und Speicherung. Einzelheiten finden Sie im Originalpapier. Tabelle 4 gibt einen Überblick über das Open-Source-MoE-Framework.



Expertenanwendungen mischen

Im Bereich der großen Sprachmodelle (LLM), der derzeit von Transformer dominiert wird, ist das Mixed-Expert-Paradigma (MoE) attraktiv, da es die Modellfähigkeiten erheblich verbessern kann, ohne übermäßige Rechenanforderungen für die Trainings- und Inferenzphasen mit sich zu bringen. Diese Art von Technologie kann die Leistung von LLM bei einer Vielzahl nachgelagerter Aufgaben erheblich verbessern und sogar einige KI-Anwendungen erstellen, die über das menschliche Niveau hinausgehen.

Es gibt Gerüchte, dass GPT-4, das so leistungsstark ist, auch eine Art MoE-Architektur übernehmen könnte – bestehend aus 8 Experten mit 220 Milliarden Parametern, die auf verschiedene Datensätze und Aufgaben geschult sind und einen 16-maligen iterativen Argumentationsprozess verwenden. Weitere Einzelheiten zu diesem Gerücht finden Sie im Heart of the Machine-Bericht „Ultimate „Revelation“: GPT-4-Modellarchitektur, Trainingskosten und Datensatzinformationen wurden enthüllt.“

Daher ist es keine Überraschung, dass MoE in den Bereichen natürliche Sprachverarbeitung, Computer Vision, Empfehlungssysteme und multimodale Anwendungen aufblüht.

Diese Anwendungen erfordern im Wesentlichen die Verwendung von bedingten Berechnungen, um die Anzahl der Parameter des Modells deutlich zu erhöhen und so die Leistung des Modells bei festen Rechenkosten zu verbessern, oder die Implementierung einer dynamischen Expertenauswahl über einen Gating-Mechanismus, um ein effizientes Multitasking-Lernen zu erreichen.

Das Team stellte außerdem repräsentative MoE-Anwendungen in diesen verschiedenen Bereichen vor, die den Lesern helfen können, zu verstehen, wie MoE für bestimmte Aufgaben eingesetzt werden kann. Einzelheiten finden Sie im Originalpapier.

Herausforderungen und Möglichkeiten

Hybrid-Experten, leistungsstark, Kosten senken, Leistung verbessern. Obwohl die Aussichten gut sind, gibt es immer noch Herausforderungen.

In diesem Abschnitt sortiert das Team die wichtigsten Herausforderungen im Zusammenhang mit MoE und zeigt zukünftige Forschungsrichtungen auf, die wichtige Ergebnisse versprechen. Diese Herausforderungen und Forschungsrichtungen werden im Folgenden kurz aufgeführt. Weitere Einzelheiten finden Sie im Originalpapier.

Trainingsstabilität und Lastausgleich

Skalierbarkeit und Kommunikationsaufwand

Fachliche Spezialisierung und Zusammenarbeit

Sparsame Aktivierung und Recheneffizienz

Verallgemeinerung und Robustheit

Erklärbarkeit und Transparenz

Optimale Expertenarchitektur

Integration in bestehende Frameworks