Knowledge Distillation: Wie Student-Modelle vom Teacher lernen

11. April 2026

Phi-3-mini lief auf einem iPhone, bevor irgendjemand ernsthaft glauben wollte, dass ein 3,8-Milliarden-Parameter-Modell die Qualität von GPT-3.5 erreichen kann. Gemma Nano steckt in Pixel-Telefonen, DistilBERT läuft auf Edge-Geräten in Latenzen, bei denen BERT noch beim ersten Forward Pass wäre, und Distill-Whisper transkribiert sechsmal schneller als das Original bei vergleichbarer Wortfehlerrate. All diese Modelle teilen denselben Trainings-Trick: Sie sind nicht von Grund auf trainiert, sondern haben gelernt, indem sie ein deutlich grösseres Modell imitiert haben. Diese Technik heisst Knowledge Distillation, sie geht in ihrer modernen Form auf ein Hinton-Vinyals-Dean-Paper von 2015 zurück, und sie ist heute der wichtigste Mechanismus, um Frontier-Qualität auf konsumentenfähige Hardware zu bringen.

Intuition

Der Klassiker zur Erklärung ist Schule. Ein Schüler kann sich Multiplikationstabellen mechanisch einprägen -- er weiss dann, dass 7 mal 8 gleich 56 ist, und das war's. Oder er kann von einem Lehrer lernen, der ihm zeigt, dass 7 mal 8 nahe bei 7 mal 7 plus 7 liegt, dass es kleiner als 60 ist, dass es zwischen den Quadratzahlen 49 und 64 liegt. Das Endergebnis -- 56 -- ist dasselbe. Aber der zweite Schüler hat ein viel reicheres Bild davon, wie Multiplikation funktioniert, und kann Aufgaben lösen, die er nie gesehen hat.

Genau das ist der Unterschied zwischen einem Hard Label und einem Soft Target. Wenn ein Modell ein Bild als Klasse "Hund" lernt, ist das Hard Label [0, 0, 1, 0, 0] -- der Hund hat hundert Prozent Wahrscheinlichkeit, alles andere null. Ein gut trainierter Lehrer dagegen produziert für dasselbe Bild eine Verteilung wie [0.01, 0.02, 0.85, 0.10, 0.02] -- Hund mit 85 Prozent, aber ein bisschen Wolf, ein bisschen Katze. In diesen kleinen Restwahrscheinlichkeiten steckt die eigentliche Information: Das Bild ähnelt einem Wolf mehr als einer Katze, und der Hund auf dem Bild hat Eigenschaften, die ihn nahe an Wölfe heranbringen. Hinton nennt das "Dark Knowledge" -- Wissen, das im trainierten Modell vorhanden ist, in Hard Labels aber komplett zerstört wird.

Ein Schüler, der diese Verteilungen imitiert, lernt deshalb pro Beispiel deutlich mehr als ein Schüler, der nur die Klassenzugehörigkeit kennt. Das ist der Grund, warum Distillation auch dann funktioniert, wenn man dem Student dieselben Daten und dieselbe Architektur gibt: Die Soft Targets vermitteln zusätzliche Information über die Beziehungen zwischen Klassen, die in der Datenmenge selbst nirgendwo explizit steht.

Technische Details

Soft Targets und der Temperature-Trick

Ein neuronales Netz produziert vor der Klassifikationsschicht Logits z = (z_1, ..., z_K). Die normale Softmax wandelt sie in Wahrscheinlichkeiten um:

p_i = exp(z_i) / sum_j exp(z_j)

Bei einem gut trainierten Modell sind die Logits oft sehr ungleich verteilt. Der korrekte Klassen-Logit liegt weit über den anderen, und die Softmax kollabiert auf etwas wie [0.0001, 0.0001, 0.9997, 0.0001]. Die "interessante" Information -- die Verhältnisse der kleinen Werte zueinander -- ist im numerischen Rauschen verschwunden.

Hintons Trick ist die Temperature T:

p_i^(T) = exp(z_i / T) / sum_j exp(z_j / T)

Bei T = 1 ist das die normale Softmax. Bei T > 1 werden die Logits zusammengestaucht, bevor die Exponentialfunktion sie wieder spreizt -- die Verteilung wird "weicher". Bei T = 5 sieht aus den [0.0001, 0.0001, 0.9997, 0.0001] plötzlich vielleicht [0.05, 0.10, 0.78, 0.07] -- die Klasse ist immer noch klar, aber die Nebenklassen sind sichtbar und tragen Gradient. Im Limit T -> infinity wird die Verteilung uniform, im Limit T -> 0 wird sie zur One-Hot.

Sowohl Lehrer als auch Schüler werden mit derselben Temperature ausgewertet. Der Schüler lernt also eine geglättete Version der Lehrerverteilung zu reproduzieren. Bei der Inferenz wird wieder T = 1 verwendet.

Der KD-Loss

Die Standard-Loss-Funktion ist eine gewichtete Summe aus zwei Termen:

L = alpha * L_KD + (1 - alpha) * L_CE

Der Distillation-Term L_KD ist die KL-Divergenz zwischen der weichen Lehrerverteilung und der weichen Schülerverteilung:

L_KD = T^2 * KL(softmax(z_t / T) || softmax(z_s / T))

Der Faktor T^2 ist kein Schönheitsfehler, sondern wichtig: Die Gradienten der Soft-Softmax skalieren mit 1/T^2, der Vorfaktor kompensiert das, damit L_KD und L_CE ähnliche Gradient-Magnituden haben und alpha als sinnvoller Mischfaktor funktioniert.

Der zweite Term L_CE ist die normale Cross-Entropy gegen das Hard Label, wie bei Standard-Training. Er sorgt dafür, dass der Student auch dann die richtige Antwort lernt, wenn der Lehrer sich irrt -- ein Anker an der Ground Truth.

alpha liegt typischerweise zwischen 0,5 und 0,9. Werte über 0,9 bedeuten, dass der Lehrer fast vollständig dominiert, was nur funktioniert, wenn der Lehrer wirklich gut ist. Werte unter 0,5 verschenken den meisten Distillation-Vorteil.

Pseudocode

def distillation_loss(student_logits, teacher_logits, labels, T=4.0, alpha=0.7):
    # Soft targets: KL-Divergenz zwischen geglaetteten Verteilungen
    soft_student = F.log_softmax(student_logits / T, dim=-1)
    soft_teacher = F.softmax(teacher_logits / T, dim=-1)
    kd_loss = F.kl_div(soft_student, soft_teacher, reduction="batchmean") * (T ** 2)

    # Hard targets: Cross-Entropy gegen Ground Truth
    ce_loss = F.cross_entropy(student_logits, labels)

    return alpha * kd_loss + (1.0 - alpha) * ce_loss


def train_step(student, teacher, batch, optimizer):
    inputs, labels = batch
    with torch.no_grad():
        teacher_logits = teacher(inputs)        # Lehrer ist eingefroren
    student_logits = student(inputs)
    loss = distillation_loss(student_logits, teacher_logits, labels)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    return loss.item()

Mehr ist es im Grundfall nicht. Lehrer einfrieren, Forward-Pass durch beide Modelle, gewichteter Loss, fertig. Die gesamte Methode lässt sich in zwanzig Zeilen schreiben.

Output Distillation vs Feature Distillation

Was oben beschrieben ist, heisst Output Distillation oder Response-based Distillation -- der Student imitiert die Endverteilung des Lehrers. Es gibt zwei wichtige Erweiterungen:

Feature Distillation (auch Hint-based oder Intermediate Distillation): Statt nur die letzte Schicht zu vergleichen, zwingt man Zwischenrepräsentationen des Schülers, denen des Lehrers zu ähneln. Bei FitNets etwa wird die Ausgabe einer mittleren Schicht des Schülers per Projektion auf die entsprechende Schicht des Lehrers gemappt und per MSE-Loss aneinander gezogen. Bei Transformers wird häufig zusätzlich die Attention-Matrix oder die Hidden-State-Verteilung distilliert -- TinyBERT, MiniLM und MobileBERT machen das. Das ist informationsreicher als reine Output Distillation, kostet aber Komplexität: Man braucht Architekturen, deren Schichten überhaupt zueinanderpassen, und mehr Hyperparameter.

Self-Distillation: Der Trick, dass derselbe Modelltyp als Lehrer und Schüler dient -- entweder ein früherer Checkpoint, eine andere Schicht desselben Netzes (Deep Self-Distillation), oder ein Ensemble verschiedener Augmentationen desselben Modells. Self-Distillation verbessert die Generalisierung selbst dann, wenn Lehrer und Schüler dieselbe Kapazität haben, was lange als überraschend galt -- sie wirkt wie eine Form impliziter Regularisierung.

Online vs Offline Distillation

In Offline Distillation wird der Lehrer einmal trainiert, dann eingefroren, dann der Student trainiert. Das ist die Standardvariante, einfach und stabil. In Online Distillation werden Lehrer und Student gemeinsam trainiert -- oder mehrere gleich grosse Modelle lernen voneinander, ohne dass es einen festen Lehrer gibt (Deep Mutual Learning). Online-Varianten sind nützlich, wenn kein vortrainierter Lehrer verfügbar ist, dafür sind sie instabiler und teurer.

Praxis-Relevanz

Distillation ist in den letzten Jahren von einem Modellkompressions-Trick zur Standard-Antwort auf "wie kriegt man Frontier-Qualität auf eine GPU, die nicht im Datacenter steht" geworden.

DistilBERT (2019) war das erste prominente Beispiel im NLP-Bereich: 40 Prozent kleiner als BERT, 60 Prozent schneller, 97 Prozent der GLUE-Performance. Trainiert mit Triple Loss aus Language-Modeling, Distillation und Cosine-Distance auf den Hidden States. Die Methode war konzeptionell unspektakulär, das Ergebnis war es nicht -- DistilBERT hat NLP-Production-Workloads jahrelang dominiert.

Phi-Reihe (Microsoft, ab 2023): Phi-1, Phi-2, Phi-3 und Phi-4 sind keine klassischen Distillation-Modelle im Hinton-Sinne, weisen aber dasselbe Grundprinzip auf: Sie wurden auf "Textbook-Quality"-Daten trainiert, die zum grossen Teil von GPT-4 generiert wurden. Das ist Distillation per Synthetic Data -- der Schüler sieht nicht die Logit-Verteilung des Lehrers, aber die Verteilung der von ihm geschriebenen Texte. Phi-3-mini mit 3,8 Milliarden Parametern erreicht Benchmarks, die vorher 70-Milliarden-Modellen vorbehalten waren.

Gemma Nano (Google): Läuft on-device in Pixel-Telefonen für Funktionen wie Recorder-Zusammenfassung und Smart Reply. Distilliert aus der grösseren Gemini-Familie, mit Gewichten, die nach INT4-Quantisierung in den Speicher eines Mobiltelefons passen.

TinyLlama (1,1 Milliarden Parameter, 2024): Eine Community-Demonstration, dass auch ohne Distillation aus einem grossen Closed-Source-Lehrer kompetitive kleine Modelle möglich sind -- und zugleich ein beliebter Schüler für eigene Distillation-Experimente, weil sich das Modell preiswert weitertrainieren lässt.

Distill-Whisper: Distilliert die Encoder-Decoder-Architektur von OpenAIs Whisper auf weniger Decoder-Schichten, sechs Mal schneller, vergleichbare Word Error Rate. Der Beweis, dass Distillation auch bei Sequence-to-Sequence-Modellen mit langen Ausgaben funktioniert.

Im LLM-Kontext ist Distillation inzwischen so verbreitet, dass viele "Open-Source"-Modelle de facto destillierte Schüler von API-Modellen sind -- entweder per Output Distillation auf Logprobs, wo verfügbar, oder per Synthetic Distillation auf vom Lehrer erzeugten Trainingsdaten. Das Survey "A Survey on Knowledge Distillation of Large Language Models" (Xu et al., 2024) ordnet die Methoden nach Algorithmus, Skill und Anwendungsdomäne und zeigt, wie sehr KD in der LLM-Pipeline mit Data Augmentation verschmilzt.

Eine wichtige neuere Entwicklung ist On-Policy Distillation, bei der der Student nicht auf vorab gesammelten Lehrer-Trajektorien trainiert wird, sondern auf seinen eigenen Rollouts, die der Lehrer pro Token bewertet. Die Methode kombiniert die dichte Feedback-Qualität klassischer KD mit dem On-Policy-Vorteil von RL und erreicht bei Math-Reasoning vergleichbare Scores wie reines RL bei einem Bruchteil der Compute-Kosten -- siehe dazu den separaten Eintrag zu Thinking Machines Lab On-Policy Distillation.

Distillation ist zudem die Voraussetzung für Speculative Decoding: Ein kleines, schnelles Draft-Modell schlägt mehrere Tokens auf einmal vor, das grosse Zielmodell verifiziert sie in einem einzigen Forward-Pass. Damit das funktioniert, muss das Draft-Modell hinreichend ähnliche Verteilungen liefern -- typischerweise wird es per Distillation aus dem Zielmodell trainiert.

Grenzen sind ehrlich gesagt: Ein Schüler kann nicht über seinen Lehrer hinauswachsen. Wo der Lehrer halluziniert, halluziniert der Schüler mit. Wo der Lehrer Sprachen oder Domänen schlecht abdeckt, übernimmt der Schüler diese Lücke. Architekturwechsel zwischen Lehrer und Schüler erschweren Feature Distillation, und bei reiner Output Distillation bleibt die Frage, ob der Schüler eine Repräsentation entwickelt, die generalisiert -- oder nur die Lehrerverteilung overfittet. Und juristisch ist Distillation auf API-Modelle eine Grauzone, weil die Terms of Service vieler Anbieter explizit verbieten, ihre Outputs zum Training konkurrierender Modelle zu nutzen.

Trotzdem: Wenn 2026 ein 3-Milliarden-Modell die Qualität eines 70-Milliarden-Modells von 2023 erreicht, dann steckt mit hoher Wahrscheinlichkeit Distillation dahinter. Es ist die unglamouröseste und zugleich folgenreichste Methode der letzten zehn Jahre Modell-Engineering.

Quellen

Nach oben