Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen
Lech Madeyski adressiert ein Problem, das jeder spürt, der mit Claude Code oder Cursor arbeitet: Agenten schicken jeden Task pauschal an das Frontier-Modell, auch wenn er trivial ist. Sein Framework Triage nutzt Code-Health-Metriken als Routing-Signal, um jede Aufgabe an den billigsten Modell-Tier zu geben, dessen Output denselben Verification-Gate passiert wie das teure Modell. Getestet auf SWE-bench Lite mit 300 Tasks über drei Tiers, flankiert von zwei analytisch hergeleiteten, falsifizierbaren Bedingungen.
Kernaussagen
- Drei Capability-Tiers bilden typische Anbieter-Staffelungen ab: light, standard, heavy -- explizit als Analogie zu Haiku, Sonnet und Opus formuliert. Routing-Features sind pre-computed Code-Health-Subfaktoren (Wartbarkeit, Komplexität) plus Task-Metadaten.
- Tier-abhängige Asymmetrie: Mid-Tier-Modelle profitieren spürbar von sauberem Code, Frontier-Modelle kaum. Damit wird Code-Health zum echten Diskriminator -- auf gesundem Code kann der Standard-Tier oft übernehmen, auf verrottetem Code bleibt nur der Heavy-Tier robust.
- Zwei falsifizierbare Bedingungen müssen erfüllt sein, damit Routing wirtschaftlich wird:
- Die Pass-Rate des Light-Tiers auf gesundem Code muss größer sein als das Kostenverhältnis zwischen zwei Tiers. Wenn Sonnet ein Viertel von Opus kostet, muss die Haiku-Erfolgsquote auf sauberem Code mindestens bei 25 Prozent liegen, sonst rechnen sich die Mehr-Retries gegen die Ersparnis auf.
- Code-Health muss den benötigten Tier mit mindestens kleinem Effect Size unterscheiden, konkret $\hat{p} \geq 0{,}56$. Das ist eine knappe, aber prüfbare Schwelle: Liegt die Diskriminierung darunter, ist das Signal zu schwach und Routing degeneriert zu Raten.
- Transformation des Metrik-Charakters: Code-Health war bisher diagnostisch ("wie gesund ist dieser Code?"), Triage macht daraus ein aktionables Signal für die Modellauswahl.
Methodik
Evaluationsbasis ist SWE-bench Lite mit 300 Tasks, ausgewertet über drei Modell-Tiers. Drei Routing-Strategien werden direkt verglichen:
- Heuristische Schwellenwerte: Einfache, interpretierbare Regeln auf Code-Health-Subfaktoren. Niedriger Implementierungsaufwand, transparent, aber limitiert.
- Trainierter ML-Classifier: Lernt die Tier-Zuordnung aus historischen Daten. Liefert den realistischen Best Case für produktive Systeme.
- Perfect-Hindsight-Oracle: Würde für jeden Task im Nachhinein den minimal ausreichenden Tier wählen. Setzt die Obergrenze des Einsparpotenzials und macht sichtbar, wie viel Headroom zwischen Heuristik, ML-Classifier und theoretischem Optimum liegt.
Als Gate dient dieselbe Verifikationsstufe wie beim Frontier-Modell, d.h. der Output des billigeren Tiers muss dieselben Tests passieren. Das verhindert, dass Einsparungen durch Qualitätsverlust erkauft werden. Die 300 Tasks erlauben statistische Aussagen, sind aber bewusst im Scope gehalten -- das Paper (5 Seiten, 1 Figure) ist als Evaluation-Protokoll und Falsifikations-Rahmen angelegt, nicht als großes Benchmark-Showcase.
Relevanz für die Praxis
Rationale Basis für Model-Mix-Strategien. Wer bislang nach Bauchgefühl zwischen Haiku, Sonnet und Opus in Claude Code gewechselt hat, bekommt ein prüfbares Kriterium. Die erste Bedingung lässt sich im eigenen Repo direkt nachrechnen: Pass-Rate des Light-Tiers auf den eigenen Tasks messen, Kostenverhältnis der Tiers dagegen halten, und nur wenn die Pass-Rate das Kostenverhältnis schlägt, lohnt sich Routing. Für den Drei-Stufen-Ansatz aus AI-Modelle systematisch vergleichen und auswählen liefert Triage den fehlenden vierten Schritt: Routing während der Laufzeit, nicht nur beim statischen Auswahlentscheid.
Empirischer Rückhalt für "sauber schreiben spart Tokens". Die Intuition, dass saubere Codebases günstigere Agenten erlauben, ist im Wiki schon mehrfach angeklungen -- etwa im 13-Sprachen-Benchmark, wo dynamische Sprachen weniger Iterationsschleifen auslösen. Triage macht diese Intuition für Code-Health insgesamt belastbar: Mid-Tier profitiert, Frontier nicht. Wer in Maintainability investiert, senkt direkt seine Inferenzkosten beim späteren Agent-Betrieb.
Parallele zu adaptivem VLM-Routing. Das AVR-Paper für Computer Use Agents zeigt dasselbe Prinzip auf GUI-Ebene: Schwierigkeitsschätzung plus Eskalation. Triage verlegt die Schätzung vor den Task, auf Basis statisch messbarer Code-Health-Signale. Beide Papers konvergieren auf dieselbe Kernaussage: Der billigste Modell-Tier, der den Output-Gate passiert, gewinnt. Architektonisch lässt sich Triage als Praetask-Routing-Layer vor einem Agent-Harness einsetzen, während AVR-artige Confidence-Probes die Laufzeit-Eskalation übernehmen.
Was ändert das Paper für mich? Statt in Claude Code pauschal Opus zu setzen oder manuell zwischen Subagent-Modellen zu wechseln, ergibt sich ein konkretes Rezept: Code-Health auf dem Ziel-Repo berechnen, Pass-Rate-Bedingung gegen das Kostenverhältnis prüfen, und bei erfülltem $\hat{p} \geq 0{,}56$-Kriterium einen ML-Classifier oder zumindest Heuristiken auf Maintainability-Signale trainieren. Für Multi-Agent-Orchestrierung ein handfestes Design-Pattern: Router vorne, Tier-Pool dahinter, Verification-Gate als harte Klammer.
Quellen
- Triage: Routing Software Engineering Tasks to Cost-Effective LLM Tiers via Code Quality Signals -- arXiv:2604.07494
- AI-Modelle systematisch vergleichen und auswählen
- Claude Code über 13 Sprachen: Dynamisch ist billiger als statisch
- Adaptive VLM Routing für Computer Use Agents