2. April 2026

LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung

Ulugbek Shernazarov, Rostislav Svitsov und Bin Shi veroeffentlichen am 23. Maerz 2026 eine systematische Vergleichsstudie dreier Anpassungsstrategien fuer domainspezifisches Fine-Tuning: LoRA, Prompt Tuning und Full Fine-Tuning. Der ueberraschende Befund: LoRA uebertrifft Full Fine-Tuning nicht trotz, sondern gerade wegen seiner Parameterrestriktion. Mit nur 0.6% der trainierbaren Parameter erreicht LoRA auf Flan-T5-Large einen ROUGE-1-Score von 43.52 gegenueber 40.67 bei vollstaendigem Fine-Tuning.

Kernaussagen

Die Studie stellt die gaengige Annahme in Frage, dass mehr trainierbare Parameter automatisch zu besseren Ergebnissen fuehren. Auf dem PubMed-Datensatz fuer medizinische Textzusammenfassung schneidet LoRA konsistent besser ab als Full Fine-Tuning -- ueber alle getesteten Flan-T5-Varianten hinweg. Der Vorsprung von 2.85 ROUGE-1-Punkten (43.52 vs. 40.67) ist statistisch robust, bestaetigt durch mehrere Laeufe mit unterschiedlichen Random Seeds (Standardabweichung 0.18). Prompt Tuning hingegen bleibt deutlich hinter beiden Methoden zurueck. Die Autoren fuehren den Vorteil von LoRA auf einen Regularisierungseffekt zurueck: Die Low-Rank-Beschraenkung verhindert Overfitting auf die Trainingsverteilung und erzwingt eine kompaktere, generalisierungsfaehigere Repraesentation. Sensitivitaetsanalysen zeigen, dass der LoRA-Rank und die Anzahl der Prompt-Tokens signifikanten Einfluss auf die Ergebnisse haben -- die Wahl der Hyperparameter ist also entscheidend.

Methodik

Die Studie vergleicht drei Ansaetze auf der Flan-T5-Modellfamilie (Small, Base, Large) unter kontrollierten Bedingungen. Fuer LoRA werden verschiedene Rank-Konfigurationen getestet, waehrend beim Prompt Tuning die Anzahl der Prompt-Tokens variiert wird. Full Fine-Tuning dient als Baseline mit 100% der Parameter. Alle Experimente verwenden den PubMed-Datensatz fuer medizinische Zusammenfassungen und werden mit mehreren Random Seeds wiederholt, um statistische Signifikanz sicherzustellen. Die Evaluation erfolgt ueber ROUGE-Metriken, den Standard fuer Zusammenfassungsaufgaben.

Relevanz fuer die Praxis

Der Befund hat unmittelbare Konsequenzen fuer jeden, der Sprachmodelle an eigene Domaenen anpasst -- unabhaengig davon, ob es um medizinische Texte, Code oder Geschaeftsdokumente geht. Erstens: Full Fine-Tuning ist nicht automatisch die beste Option. Wer bisher aus Qualitaetsgruenden auf Full Fine-Tuning gesetzt hat, sollte LoRA als ernsthafte Alternative evaluieren -- die Chancen stehen gut, dass es nicht nur guenstiger, sondern auch besser performt. Zweitens: Der Regularisierungseffekt von LoRA erklaert, warum die Methode besonders bei begrenzten Trainingsdaten stark ist. Fuer spezialisierte Domaenen, in denen annotierte Daten knapp und teuer sind, ist das ein entscheidender Vorteil. Drittens: Die Sensitivitaet gegenueber dem LoRA-Rank unterstreicht, dass Hyperparameter-Tuning auch bei PEFT-Methoden unverzichtbar ist. Ein niedriger Rank spart Rechenzeit, kann aber Performance kosten -- die richtige Balance haengt vom konkreten Use Case ab.

Quellen

Nach oben