8. April 2026

Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen

Lech Madeyski adressiert ein Problem, das jeder spürt, der mit Claude Code oder Cursor arbeitet: Agenten schicken jeden Task pauschal an das Frontier-Modell, auch wenn er trivial ist. Sein Framework Triage nutzt Code-Health-Metriken als Routing-Signal, um jede Aufgabe an den billigsten Modell-Tier zu geben, dessen Output denselben Verification-Gate passiert wie das teure Modell. Getestet auf SWE-bench Lite mit 300 Tasks über drei Tiers, flankiert von zwei analytisch hergeleiteten, falsifizierbaren Bedingungen.

Kernaussagen

Methodik

Evaluationsbasis ist SWE-bench Lite mit 300 Tasks, ausgewertet über drei Modell-Tiers. Drei Routing-Strategien werden direkt verglichen:

Als Gate dient dieselbe Verifikationsstufe wie beim Frontier-Modell, d.h. der Output des billigeren Tiers muss dieselben Tests passieren. Das verhindert, dass Einsparungen durch Qualitätsverlust erkauft werden. Die 300 Tasks erlauben statistische Aussagen, sind aber bewusst im Scope gehalten -- das Paper (5 Seiten, 1 Figure) ist als Evaluation-Protokoll und Falsifikations-Rahmen angelegt, nicht als großes Benchmark-Showcase.

Relevanz für die Praxis

Rationale Basis für Model-Mix-Strategien. Wer bislang nach Bauchgefühl zwischen Haiku, Sonnet und Opus in Claude Code gewechselt hat, bekommt ein prüfbares Kriterium. Die erste Bedingung lässt sich im eigenen Repo direkt nachrechnen: Pass-Rate des Light-Tiers auf den eigenen Tasks messen, Kostenverhältnis der Tiers dagegen halten, und nur wenn die Pass-Rate das Kostenverhältnis schlägt, lohnt sich Routing. Für den Drei-Stufen-Ansatz aus AI-Modelle systematisch vergleichen und auswählen liefert Triage den fehlenden vierten Schritt: Routing während der Laufzeit, nicht nur beim statischen Auswahlentscheid.

Empirischer Rückhalt für "sauber schreiben spart Tokens". Die Intuition, dass saubere Codebases günstigere Agenten erlauben, ist im Wiki schon mehrfach angeklungen -- etwa im 13-Sprachen-Benchmark, wo dynamische Sprachen weniger Iterationsschleifen auslösen. Triage macht diese Intuition für Code-Health insgesamt belastbar: Mid-Tier profitiert, Frontier nicht. Wer in Maintainability investiert, senkt direkt seine Inferenzkosten beim späteren Agent-Betrieb.

Parallele zu adaptivem VLM-Routing. Das AVR-Paper für Computer Use Agents zeigt dasselbe Prinzip auf GUI-Ebene: Schwierigkeitsschätzung plus Eskalation. Triage verlegt die Schätzung vor den Task, auf Basis statisch messbarer Code-Health-Signale. Beide Papers konvergieren auf dieselbe Kernaussage: Der billigste Modell-Tier, der den Output-Gate passiert, gewinnt. Architektonisch lässt sich Triage als Praetask-Routing-Layer vor einem Agent-Harness einsetzen, während AVR-artige Confidence-Probes die Laufzeit-Eskalation übernehmen.

Was ändert das Paper für mich? Statt in Claude Code pauschal Opus zu setzen oder manuell zwischen Subagent-Modellen zu wechseln, ergibt sich ein konkretes Rezept: Code-Health auf dem Ziel-Repo berechnen, Pass-Rate-Bedingung gegen das Kostenverhältnis prüfen, und bei erfülltem $\hat{p} \geq 0{,}56$-Kriterium einen ML-Classifier oder zumindest Heuristiken auf Maintainability-Signale trainieren. Für Multi-Agent-Orchestrierung ein handfestes Design-Pattern: Router vorne, Tier-Pool dahinter, Verification-Gate als harte Klammer.

Quellen

Nach oben