Mixture of Experts (MoE) ist die Architektur hinter den groessten Sprachmodellen der Gegenwart. Sie loest ein fundamentales Problem: Wie baut man ein Modell mit Hunderten Milliarden Parametern, ohne dass die Inferenzkosten proportional explodieren?
Intuition
Ein Krankenhaus mit 100 Fachspezialisten behandelt einen Patienten nicht mit allen 100 gleichzeitig. Eine Triage-Kraft entscheidet, welche zwei oder drei Spezialisten relevant sind, und leitet den Patienten dorthin. Der Rest bleibt untaetig. Das Krankenhaus hat trotzdem die volle Breite an Expertise -- es nutzt sie nur selektiv.
Genau so funktioniert MoE. Ein dichtes (dense) Transformer-Modell aktiviert bei jedem Token saemtliche Parameter. Jede Gewichtsmatrix wird durchlaufen, unabhaengig davon, ob der aktuelle Token ein Stueck Python-Code, ein juristischer Fachbegriff oder ein Wort auf Japanisch ist. Das ist rechnerisch verschwenderisch, wenn das Modell ein breites Wissensspektrum abdecken soll.
MoE aendert das: Die Feed-Forward-Schicht (FFN) jedes Transformer-Layers wird in N unabhaengige Experten aufgespalten. Ein kleines Routing-Netzwerk entscheidet pro Token, welche k Experten aktiviert werden. Der Rest bleibt inaktiv. Das Modell kann dadurch zehnmal so viele Gesamtparameter haben wie ein dichtes Modell, verbraucht aber pro Token nur den Rechenaufwand eines deutlich kleineren Modells.
Konkretes Beispiel: Mixtral 8x7B hat 8 Experten mit je rund 7 Milliarden Parametern -- insgesamt 46,7B Gesamtparameter. Pro Token werden 2 Experten aktiviert, was etwa 13B aktiven Parametern entspricht. Das Modell erreicht trotzdem die Qualitaet von Llama 2 70B, einem dichten Modell mit mehr als fuenfmal so hohem Rechenaufwand pro Token.
Technische Details
Grundarchitektur
Ein Standard-Transformer-Layer besteht aus zwei Bloecken: Multi-Head Attention und Feed-Forward Network (FFN). MoE ersetzt ausschliesslich das FFN. Die Attention-Schicht bleibt unveraendert und wird von allen Tokens vollstaendig durchlaufen.
Das FFN wird durch zwei Komponenten ersetzt:
- N Experten-FFNs: Jeder Experte ist ein eigenstaendiges Feed-Forward-Netzwerk mit identischer Architektur aber eigenen Gewichten. Die Experten spezialisieren sich waehrend des Trainings auf unterschiedliche Eingabemuster.
- Router (Gating Network): Ein kleines Netzwerk, das die versteckte Repraesentation eines Tokens als Eingabe nimmt und eine Wahrscheinlichkeitsverteilung ueber alle N Experten ausgibt.
Der Ablauf pro Token: Der Router berechnet Scores fuer alle Experten, waehlt die Top-k aus, leitet den Token an diese k Experten weiter und kombiniert deren Ausgaben als gewichtete Summe. Die Gewichte entsprechen den normalisierten Router-Scores der aktiven Experten.
Router und Gating
In der einfachsten Form ist der Router eine einzelne lineare Schicht mit Softmax:
G(x) = softmax(W_g * x)
Dabei ist x die Token-Repraesentation und W_g eine lernbare Gewichtsmatrix mit Dimensionen (hidden_size x N). Aus der resultierenden Verteilung werden die Top-k Experten gewaehlt.
Das Training des Routers ist subtil. Die Top-k-Auswahl ist nicht differenzierbar -- es handelt sich um eine diskrete Entscheidung. In der Praxis wird die Gewichtung der ausgewaehlten Experten aber ueber die Softmax-Wahrscheinlichkeiten zurueckpropagiert, was dem Router genuegend Gradienten-Signal gibt. Switch Transformer vereinfacht das weiter auf Top-1-Routing, bei dem nur ein einziger Experte pro Token aktiviert wird.
Der Router lernt waehrend des Trainings, welche Arten von Eingaben welcher Experte am besten verarbeitet. Analysen von Mixtral zeigen, dass sich Experten tatsaechlich auf erkennbare Muster spezialisieren -- etwa auf Code, formale Sprache oder bestimmte Sprachfamilien -- obwohl diese Spezialisierung nicht explizit vorgegeben wird.
Load Balancing
Ohne Gegenmassnahmen kollabiert das Routing: Der Router lernt, die meisten Tokens an ein oder zwei Experten zu senden. Diese Experten verbessern sich durch mehr Training schneller, was den Router weiter in deren Richtung draengt. Ein Teufelskreis, der die restlichen Experten nutzlos macht.
Die Standardloesung ist ein zusaetzlicher Verlustterm (Auxiliary Load Balancing Loss):
L_balance = alpha * N * sum_i(f_i * P_i)
Dabei ist f_i der Anteil der Tokens, die an Experte i geroutet werden, und P_i die durchschnittliche Routing-Wahrscheinlichkeit fuer Experte i. Der Faktor alpha (typisch 0.01) steuert die Staerke. Dieses Produkt wird minimal, wenn jeder Experte exakt 1/N der Tokens erhaelt -- eine gleichmaessige Verteilung.
Zusaetzlich definiert man eine Expertenkapazitaet: die maximale Anzahl Tokens, die ein Experte pro Batch verarbeiten darf. Tokens, die einen bereits vollen Experten ansteuern, werden entweder verworfen (dropped) oder an einen Fallback-Experten weitergeleitet. Das begrenzt die Ungleichverteilung hart, fuehrt aber zu Informationsverlust -- ein Kompromiss, der sorgfaeltig kalibriert werden muss.
Sparse vs. Dense: die Rechnung
Die Unterscheidung zwischen Gesamtparametern und aktiven Parametern ist zentral:
- Gesamtparameter: N * expert_size + shared_params (Attention, Embeddings, LayerNorm)
- Aktive Parameter pro Token: k * expert_size + shared_params
Fuer Mixtral 8x7B: 8 Experten a ~5.6B Experten-Parameter plus gemeinsame Attention-Parameter ergeben 46.7B gesamt. Mit Top-2-Routing sind pro Token ~12.9B Parameter aktiv. Die Qualitaet entspricht einem 70B-Dense-Modell, der Rechenaufwand liegt naeher bei einem 13B-Modell.
Der Haken: Der Speicherbedarf bleibt bei den Gesamtparametern. Alle Experten muessen im RAM (oder verteilt auf GPUs) vorgehalten werden, auch wenn nur ein Bruchteil pro Token aktiv ist. MoE-Modelle sind daher speicherhungrig bei vergleichsweise geringem Compute -- das Gegenteil eines dichten Modells.
Expert Parallelism
Grosse MoE-Modelle verteilen Experten auf verschiedene GPUs. Das erzeugt ein spezifisches Kommunikationsmuster: Nach dem Routing muss jeder Token physisch an die GPU gesendet werden, auf der sein zugewiesener Experte liegt. Diese All-to-All-Kommunikation ist der Hauptflaschenhals beim MoE-Training und bei der verteilten Inferenz.
In der Praxis werden drei Parallelitaetsstrategien kombiniert:
- Expert Parallelism: Experten ueber GPUs verteilen
- Tensor Parallelism: Einzelne Experten ueber GPUs aufteilen
- Pipeline Parallelism: Transformer-Layer sequenziell ueber GPUs verteilen
DeepSeek-V3 hat hier eine Innovation eingefuehrt: Durch die Verwendung von 256 kleinen Experten statt weniger grosser wird die Last feingranularer verteilt und die All-to-All-Kommunikation effizienter gebuendelt.
Architektur-Varianten
Die MoE-Landschaft hat sich seit dem Ursprungspaper von 2017 stark diversifiziert:
- Switch Transformer (Google, 2021): Top-1-Routing -- nur ein Experte pro Token. Maximal einfach, skaliert auf Billionen Parameter.
- GShard (Google, 2020): Top-2-Routing, skaliert auf 600B Parameter ueber tausende TPUs.
- Mixtral 8x7B (Mistral, 2023): 8 Experten, Top-2, Open Weights. Bewies, dass MoE in der Open-Source-Welt funktioniert.
- DBRX (Databricks, 2024): 16 Experten, Top-4. Feinere Granularitaet als Mixtral.
- DeepSeek-V2/V3 (DeepSeek, 2024): 256 kleine Experten, Top-6. Radikale Feingranularitaet mit shared Experten, die immer aktiv sind.
- GLM-5.1 (Z.AI, 2026): 754B Gesamtparameter, Open Weight, optimiert fuer agentische Langzeit-Aufgaben.
Der Trend geht zu mehr, kleineren Experten. DeepSeeks Ansatz mit 256 Experten hat gezeigt, dass feinere Granularitaet das Load Balancing verbessert und die Spezialisierung schaerft.
Praxis-Relevanz
MoE erklaert, warum manche vermeintlich riesige Modelle ueberraschend schnell laufen. Mixtral 8x7B laeuft quantisiert auf Consumer-GPUs mit 24 GB VRAM -- trotz 46.7B Gesamtparametern. GLM-5.1 mit 754B waere als dichtes Modell auf absehbare Zeit nicht praktikabel; als MoE-Modell ist es es durchaus.
Fuer die Modellauswahl gilt: Gesamtparameter sind kein Mass fuer den Rechenaufwand. Ein 140B-MoE-Modell kann schneller inferieren als ein 70B-Dense-Modell. Entscheidend sind die aktiven Parameter pro Token und die Anzahl der Experten.
Beim Finetuning von MoE-Modellen stellt sich die Frage, welche Experten angepasst werden. LoRA auf allen Experten ist moeglich, aber teuer im Speicher. Selektives Finetuning einzelner Experten oder nur des Routers sind aktive Forschungsgebiete.
Quantisierung funktioniert bei MoE besonders gut: Jeder Experte kann unabhaengig quantisiert werden. Experten, die seltener aktiviert werden, koennen aggressiver komprimiert werden als haeufig genutzte. Inference-Frameworks wie vLLM, TensorRT-LLM und SGLang haben MoE-spezifische Optimierungen: Expertenbatching, vorausschauendes Laden inaktiver Experten und effizientes All-to-All-Routing.
Quellen
- Shazeer et al. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (2017)
- Fedus et al. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity" (2021)
- Jiang et al. "Mixtral of Experts" (2024)
- DeepSeek-AI "DeepSeek-V3 Technical Report" (2024)