2. April 2026

CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen

Synthetische Trainingsdaten gelten als vielversprechender Ersatz fuer teure menschliche Annotationen. Doch Quantitaet allein reicht nicht -- die Diversitaet der generierten Daten ist entscheidend. Zhang, Peng und Bollegala demonstrieren mit CommonSyn, dass ein durchdachter zweistufiger Ansatz aus Generierung und intelligenter Selektion synthetische Datensaetze produziert, die menschlich annotierte Daten nicht nur ersetzen, sondern in Qualitaet und Diversitaet uebertreffen. Besonders bemerkenswert: Modelle, die auf CommonSyn trainiert wurden, vermeiden das katastrophale Vergessen, das beim Training auf dem menschlich annotierten CommonGen-Datensatz systematisch auftritt.

Kernaussagen

Die Studie zeigt drei zentrale Befunde. Erstens: Synthetische Daten koennen menschliche Annotationen uebertreffen, wenn Diversitaet als explizites Optimierungsziel behandelt wird. Llama-3.1-8B erreichte mit CommonSyn einen Overall-Score von 47.3, gegenueber 31.7 mit dem menschlich annotierten CommonGen -- eine Steigerung um 47 Prozent. Qwen-2.5-14B erzielte mit 52.0 den hoechsten Wert ueber alle Konfigurationen.

Zweitens: Fine-Tuning auf menschlich annotierten Daten kann paradoxerweise schaden. Modelle, die auf CommonGen trainiert wurden, zeigten dramatische Leistungseinbrueche auf Downstream-Tasks. Auf ComVE (Counterfactual Explanation) fiel die Win-Tie-Rate von 75.3 (Vanilla) auf 41.7. Auf Alpha-NLG (Abductive Reasoning) von 54.6 auf 25.9. CommonSyn-trainierte Modelle dagegen hielten oder verbesserten ihre Downstream-Performance: 78.9 auf ComVE, 61.1 auf Alpha-NLG, 88.6 auf ROCStories.

Drittens: Die Kombination mehrerer Generierungsstrategien mit Embedding-basierter Selektion erzielt bessere Ergebnisse als jede Einzelstrategie. Die Dynamic-Few-Shot-Methode lieferte die hoechste Qualitaet (Win-Tie 53.1), Multi-Sentence die beste Diversitaet (S-Cos 36.3). CommonSyn vereint das Beste aus beiden und liegt auf der Pareto-Grenze.

Methodik

Der Ansatz besteht aus zwei Stufen:

Stufe 1: Datengenerierung. Ausgangspunkt sind Konzept-Sets aus CommonGen, die durch eine 2-Seed-Expansionsstrategie erweitert werden. Zwei zufaellige Konzepte dienen als Anker, ein LLM generiert 1-3 Brueckenkonzepte. Das Ergebnis: 99.6 Prozent der generierten Konzept-Tripel sind im Original nicht enthalten. Fuer die Satzgenerierung kommen drei komplementaere Strategien zum Einsatz -- Dynamic Few-Shot fuer Qualitaet, Multi-Sentence Few-Shot fuer lexikalische Variation, Chain-of-Thought fuer semantische Tiefe. Alle Ausgaben sind auf maximal 22 Woerter begrenzt mit obligatorischer Keyword-Abdeckung.

Stufe 2: Intelligente Selektion. Zuerst werden niedrigqualitative Kandidaten per Gemini-2.5-Flash-Scoring gefiltert (Schwelle: Score unter 4). Dann berechnet das System lokale Diversitaetswerte mittels SimCSE-Embeddings innerhalb jedes Konzept-Sets und waehlt die Top-8 diversesten Saetze. Im globalen Schritt wird ein kombinierter Quality-Diversity-Score berechnet, der die finalen 83.184 Beispiele bestimmt.

Evaluiert wurde auf elf Modellen von 1B bis 27B Parametern (Llama, Qwen, Gemma), jeweils mit LoRA-Fine-Tuning (Rank 96). Alle Hauptergebnisse sind mit p<0.01 statistisch signifikant.

Relevanz fuer die Praxis

Diversitaet als Designprinzip, nicht Nebenprodukt. Die gaengige Praxis, synthetische Daten einfach in grosser Menge zu generieren und auf natuerliche Diversitaet zu hoffen, ist suboptimal. CommonSyn zeigt, dass Embedding-basierte Diversitaetsmessung und gezielte Selektion deutlich bessere Resultate liefern als naive Pooling-Strategien oder rein qualitaetsbasierte Filterung.

Warnung vor Fine-Tuning auf engen Datensaetzen. Der dramatische Performance-Einbruch bei CommonGen-Training auf Downstream-Tasks ist ein Warnsignal fuer jeden, der LLMs auf domaeenspezifischen Daten fine-tuned. Enge, wenig diverse Trainingsdaten koennen existierende Faehigkeiten zerstoeren. CommonSyn demonstriert, dass synthetische Daten mit gezielter Diversitaet dieses Problem vermeiden.

Skalierbarkeit und Effizienz. Der Datensatz umfasst rund 83.000 Beispiele und liefert konsistente Verbesserungen ueber Modelle von 1B bis 27B Parametern. Die Embedding-basierte Selektion ist rechnerisch guenstiger als Gradienten-basierte Methoden, die teure Loss-Gradienten ueber alle Modellparameter benoetigen.

Einschraenkungen. Der Ansatz ist bisher nur auf Englisch und auf Concept-to-Text-Generierung evaluiert. Die Uebertragbarkeit auf Summarization, Translation oder Code-Generierung ist offen. Zudem besteht eine Abhaengigkeit von der Qualitaet der Generierungs- und Scoring-Modelle (Qwen-2.5-72B, Gemini-2.5-Flash), inklusive potenzieller Bias-Probleme.

Quellen

Nach oben