Activation Functions -- Von Sigmoid ueber ReLU zu SwiGLU

9. April 2026

Zwischen jeder linearen Schicht eines neuronalen Netzes sitzt eine Aktivierungsfunktion. Sie ist der Grund, warum tiefe Netze mehr koennen als lineare Regression. Ohne sie waere ein Netz mit 100 Schichten mathematisch aequivalent zu einer einzigen Matrixmultiplikation. Dieser Artikel erklaert die Evolution von Sigmoid bis SwiGLU -- und warum die Wahl der Aktivierungsfunktion auch heute noch Modellqualitaet und Inferenzkosten beeinflusst.

Intuition

Ein neuronales Netz besteht aus Schichten, die jeweils eine lineare Transformation ausfuehren: y = Wx + b. Eine Verkettung von linearen Transformationen ist wieder linear: W2(W1x + b1) + b2 = W2*W1*x + W2*b1 + b2 = W'x + b'. Egal wie viele Schichten -- das Ergebnis ist eine einzige Matrix und ein Bias-Vektor. Tiefe bringt ohne Nichtlinearitaet keinen Vorteil.

Aktivierungsfunktionen brechen diese Linearitaet. Sie werden elementweise auf die Ausgabe einer Schicht angewandt und erlauben dem Netz, beliebig komplexe Funktionen zu approximieren (Universal Approximation Theorem). Man kann sich das vorstellen wie Gelenke in einem starren Stab: Ohne Gelenke bleibt ein Stab gerade, egal wie lang. Jedes Gelenk fuegt einen Freiheitsgrad hinzu, der Kurven ermoeglicht.

Die Klassiker: Sigmoid und Tanh

Sigmoid

Die Sigmoid-Funktion quetscht jeden reellen Wert in das Intervall (0, 1):

sigma(x) = 1 / (1 + e^(-x))

Ausgabe
1.0 |                         ___________
    |                    ____/
    |                ___/
0.5 |- - - - - - -X- - - - - - - - - - -
    |          __/
    |     ____/
0.0 |____/
    +-----|------|-------|-------|--------
        -6     -3       0      3       6
                      Eingabe

Sigmoid war die Standard-Aktivierung in den 1990ern. Der Output laesst sich als Wahrscheinlichkeit interpretieren, was sie bis heute fuer die letzte Schicht bei binaerer Klassifikation und fuer Gates in LSTMs nuetzlich macht.

Das Problem: Der Gradient von Sigmoid ist sigma(x) * (1 - sigma(x)). Das Maximum liegt bei x=0 mit Wert 0.25. Fuer grosse positive oder negative Eingaben geht der Gradient gegen Null. In einem tiefen Netz multiplizieren sich diese kleinen Gradienten schichtweise -- der Gradient schrumpft exponentiell Richtung Null. Das ist das Vanishing Gradient Problem: Fruehere Schichten lernen kaum noch, weil das Fehlersignal auf dem Weg durch die Kette fast verschwindet.

Dazu kommt: Sigmoid-Ausgaben sind nicht nullzentriert (immer positiv). Das fuehrt zu Zig-Zag-Gradienten bei den Gewichts-Updates, was das Training verlangsamt.

Tanh

Tanh loest das Zentrierungsproblem, indem der Output in (-1, 1) liegt:

tanh(x) = (e^x - e^(-x)) / (e^x + e^(-x))

Der maximale Gradient ist 1.0 (bei x=0), also viermal groesser als bei Sigmoid. Vanishing Gradients treten trotzdem auf, nur etwas spaeter. In der Praxis hat Tanh Sigmoid als Hidden-Layer-Aktivierung in den 2000ern weitgehend abgeloest, verlor aber ab 2012 gegen ReLU.

ReLU und seine Varianten

ReLU

Rectified Linear Unit (Nair/Hinton, 2010) ist verblüffend simpel:

ReLU(x) = max(0, x)

Ausgabe
  6 |                              /
    |                            /
  4 |                          /
    |                        /
  2 |                      /
    |                    /
  0 |__________________X
    +------|------|------|------|------
         -6     -3      0      3     6
                      Eingabe

Drei Eigenschaften machen ReLU so erfolgreich:

Kein Vanishing Gradient im positiven Bereich: Der Gradient ist konstant 1 fuer x > 0. Gradienten koennen ungebremst durch viele Schichten fliessen.
Sparsity: Fuer x <= 0 ist die Ausgabe exakt Null. Ein typisches Netz hat nach einem Forward Pass 50-80% inaktive Neuronen. Das erzeugt duenne Repraesentationen, die effizienter und besser generalisierbar sind.
Recheneffizienz: Eine Vergleichsoperation statt Exponentialfunktionen. Das macht bei Milliarden von Aktivierungen pro Forward Pass einen messbaren Unterschied.

ReLU hat das Training tiefer Netze (ab ca. 2012 mit AlexNet) erst praktikabel gemacht und dominiert seit ueber einem Jahrzehnt.

Dying ReLU Problem: Wenn ein Neuron durch einen grossen negativen Bias oder ein unguenstiges Gewichts-Update dauerhaft negative Eingaben erhaelt, gibt es konstant 0 aus. Der Gradient ist dann ebenfalls 0, das Neuron lernt nie wieder -- es ist "tot". Bei aggressiven Learning Rates kann das einen signifikanten Teil des Netzes betreffen.

Leaky ReLU und PReLU

Leaky ReLU laesst einen kleinen Gradienten fuer negative Werte durch:

LeakyReLU(x) = x       falls x > 0
               alpha*x  falls x <= 0    (alpha typisch 0.01)

Kein Neuron stirbt komplett, weil der Gradient nie exakt Null ist. PReLU (He et al., 2015) macht alpha zu einem trainierbaren Parameter pro Kanal.

ELU

Exponential Linear Unit glaettet den Uebergang bei Null:

ELU(x) = x              falls x > 0
          alpha*(e^x-1)  falls x <= 0

ELU erzeugt im Mittel nullzentrierte Ausgaben, was Batch Normalization teilweise ueberfluessig machen kann. Der Nachteil: Die Exponentialfunktion im negativen Bereich ist teurer als ein simpler Vergleich.

Moderne Aktivierungen: GELU und SwiGLU

GELU

Gaussian Error Linear Unit (Hendrycks/Gimpel, 2016) ist die Standard-Aktivierung in Transformer-Modellen seit BERT:

GELU(x) = x * Phi(x)

wobei Phi(x) die kumulative Verteilungsfunktion der Standardnormalverteilung ist. In der Praxis wird eine Approximation verwendet:

GELU(x) ~ 0.5 * x * (1 + tanh(sqrt(2/pi) * (x + 0.044715*x^3)))

Die Intuition: GELU ist ein "stochastisches Gate". Fuer grosse positive x ist Phi(x) nahe 1, der Wert geht ungebremst durch. Fuer grosse negative x ist Phi(x) nahe 0, der Wert wird unterdrueckt. Im Bereich um Null gibt es einen glatten, nichtlinearen Uebergang. Anders als ReLU, das hart bei Null abschneidet, laesst GELU kleine negative Werte anteilig durch.

GELU wird verwendet in: BERT, GPT-2, GPT-3, RoBERTa und vielen Encoder-Modellen.

SwiGLU

SwiGLU (Shazeer, 2020) kombiniert Swish-Aktivierung mit einem Gating-Mechanismus:

Swish(x) = x * sigma(x)            (auch bekannt als SiLU)
SwiGLU(x, W1, W2, b1, b2) = Swish(xW1 + b1) * (xW2 + b2)

Der entscheidende Unterschied zu GELU: SwiGLU hat zwei parallele lineare Projektionen. Eine wird durch Swish aktiviert und dient als Gate fuer die andere. Das Netz lernt gleichzeitig, was transformiert und was durchgelassen wird.

SwiGLU liefert in empirischen Vergleichen konsistent bessere Ergebnisse als GELU bei gleicher Parameteranzahl. Der Preis: Die zwei Projektionen verdoppeln die Parameter im Feed-Forward-Block. In der Praxis wird die Hidden Dimension daher um den Faktor 2/3 reduziert, um die Gesamtparameterzahl konstant zu halten.

SwiGLU ist Standard in: LLaMA 1/2/3, PaLM, Gemma, Mistral, DeepSeek-V3, Qwen 2.5. Die Mehrheit der aktuellen LLMs verwendet SwiGLU in ihren Feed-Forward-Bloecken.

Sigmoid vs ReLU: Die Kosten geometrischen Kontextverlusts

Ein aktueller Marktechpost-Artikel beleuchtet einen weniger beachteten Aspekt: die Unterschiede zwischen Sigmoid und ReLU aus der Perspektive von Inferenzkosten und geometrischem Kontext.

Sigmoid bildet den gesamten reellen Zahlenraum auf (0, 1) ab -- eine Kompression, die die relative Geometrie der Eingabevektoren verzerrt. Punkte, die im Eingaberaum weit auseinander lagen, koennen nach Sigmoid dicht beieinander liegen. Diesen geometrischen Kontext zu rekonstruieren, erfordert zusaetzliche Netzkapazitaet.

ReLU erhaelt dagegen die geometrischen Verhaeltnisse im positiven Bereich vollstaendig: Abstande, Winkel und Richtungen bleiben unveraendert. Im negativen Bereich kollabiert alles auf Null -- aber die resultierende Sparsity ist fuer das Netz einfacher zu handhaben als die glatte Verzerrung von Sigmoid.

Die praktische Konsequenz: Ein Sigmoid-basiertes Netz benoetigt bei gleicher Aufgabe mehr Parameter oder mehr Schichten, um die durch die Aktivierung verlorene Struktur zu kompensieren. Das treibt Inferenzkosten. Es ist einer der Gruende, warum Sigmoid in Hidden Layers moderner Architekturen keine Rolle mehr spielt -- und warum selbst das glattere GELU gegenueber SwiGLU an Boden verliert.

Praxis-Relevanz

Modellauswahl verstehen: Wer die Feed-Forward-Bloecke eines LLMs inspiziert, findet dort die Aktivierungsfunktion. LLaMA, Gemma, Mistral: SwiGLU. Aeltere BERT-Varianten: GELU. Das beeinflusst Hardware-Anforderungen und Inference-Geschwindigkeit.
Fine-Tuning: Beim LoRA-Fine-Tuning werden die Aktivierungsfunktionen nicht veraendert, aber sie bestimmen das Gradientenverhalten. SwiGLU-Modelle zeigen tendenziell stabileres Fine-Tuning als aeltere ReLU-Architekturen.
Quantisierung: Aktivierungsfunktionen beeinflussen die Werteverteilung in den Zwischenschichten. GELU und SwiGLU erzeugen glattere Verteilungen als ReLU, was Post-Training-Quantisierung (PTQ) erleichtert. ReLUs Sparsity (viele exakte Nullen) kann dagegen bei bestimmten Quantisierungsverfahren vorteilhaft sein.
Custom Architectures: Fuer eigene Modelle ist SwiGLU derzeit die sichere Wahl fuer Transformer-basierte Architekturen. Fuer CNNs bleibt ReLU (oder Leaky ReLU) der Standard, da der Gating-Overhead sich bei den typischen Schichtgroessen von CNNs weniger lohnt.

Quellen

Nach oben