EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum
Synthetische Daten sind ein etabliertes Mittel, um kleinere LLMs durch Fine-Tuning leistungsfaehiger zu machen. Die zentrale Herausforderung dabei: Qualitaet und Diversitaet der generierten Daten sicherstellen. Jayaraman et al. zeigen mit EmbedSDG, dass die Loesung nicht im Sprachraum liegt, sondern im Embedding-Raum des Zielmodells selbst. Ihr Ansatz identifiziert systematisch Regionen, in denen dem Modell Trainingsdaten fehlen, und fuellt gezielt diese Luecken -- statt blind grosse Mengen synthetischer Beispiele zu produzieren.
Kernaussagen
Die zentrale Erkenntnis der Arbeit: Es besteht ein starker statistischer Zusammenhang zwischen der Dichte von Trainingsbeispielen in einer Embedding-Region und der Vorhersagegenauigkeit des Modells in dieser Region. Die Pearson-Korrelation liegt bei 0.813 (p-Wert: 1.09e-11), die Spearman-Korrelation bei 0.806. Duenn besetzte Regionen im Embedding-Raum korrelieren direkt mit schlechter Modellperformance.
Daraus folgt der praktische Ansatz: Anstatt zufaellig synthetische Daten zu generieren, identifiziert man gezielt die schwachen Stellen und generiert Daten exakt fuer diese Bereiche. Das Ergebnis sind deutliche Verbesserungen mit ueberraschend wenig Daten. Auf GSM8K verbesserte sich Granite 3.1 8B von 0.786 auf 0.824 mit nur 500 synthetischen Beispielen. Mistral 7B erreichte eine Verdopplung der Performance (0.354 auf 0.746) mit 4.500 Beispielen. Auf dem schwierigeren MATH-Benchmark stieg Granite 3.1 8B von 0.28 auf 0.3612.
Methodik
EmbedSDG ist eine sechsstufige Pipeline:
Embedding-Berechnung. Aus dem Schueler-Modell werden gewichtete Token-Repraesentationen extrahiert, wobei Attention-Scores als Gewichte dienen. Die resultierenden Embeddings werden mittels PCA oder t-SNE auf 2-3 Dimensionen reduziert.
Sparsity-Erkennung. Ein Sliding-Grid-Window bewegt sich durch den Embedding-Raum und identifiziert Regionen mit niedriger Beispieldichte. Regionen unter einem Schwellenwert T werden als duenn besetzt markiert.
Seed-Auswahl. Aus jeder duenn besetzten Region werden zwei Beispiele von gegenueberliegenden Raendern ausgewaehlt, die als kontextuelle Grenzen fuer die Generierung dienen.
Interpolation. Die gewichteten Embeddings der Seed-Beispiele werden gemittelt, um eine Zwischen-Repraesentation zu erzeugen.
Dekodierung. Das interpolierte Embedding wird zurueck in natuerliche Sprache uebersetzt.
Generierung. Ein Lehrer-LLM kombiniert die beiden Seed-Beispiele mit dem dekodierten Text, um neue synthetische Trainingsbeispiele zu erzeugen.
Getestet wurde auf drei Modellen (Granite 3 8B Code Instruct, Granite 3.1 8B Instruct, Mistral 7B) mit MetaMathQA als Seed-Pool und GSM8K sowie MATH als Evaluationsbenchmarks. Die Methode uebertraf in allen Konfigurationen die zufaellige Seed-Auswahl.
Relevanz fuer die Praxis
Weniger Daten, mehr Wirkung. Der staerkste praktische Vorteil: EmbedSDG erzielt signifikante Verbesserungen mit 500 bis 4.500 synthetischen Beispielen. Das ist um Groessenordnungen weniger als typische synthetische Datensaetze, was den Aufwand fuer Generierung, Filterung und Fine-Tuning drastisch reduziert.
Systematische Schwachstellenanalyse. Die Korrelation zwischen Embedding-Dichte und Accuracy liefert eine diagnostische Methode: Vor dem Fine-Tuning kann analysiert werden, wo ein Modell vermutlich Schwaechen hat, und gezielt dagegen vorgegangen werden. Das ist deutlich effizienter als pauschales Data Augmentation.
Limitierungen beachten. Der Ansatz setzt voraus, dass man weiss, auf welchen Datensaetzen das Modell urspruenglich trainiert wurde -- Information, die viele Anbieter nicht offenlegen. Zudem wurde bisher nur auf mathematischen Reasoning-Tasks evaluiert. Ob die Methode auf andere Domaenen (Code, Sprache, Wissen) uebertraegt, ist noch offen. Groessere Modelle (70B+) bleiben rechnerisch teuer.