Tiger Teams, Evals und Agents: Das neue AI-Engineering-Playbook
Sam Bhagwat ist Co-Founder und CEO von Mastra, einem Open-Source-TypeScript-Framework fuer AI-Agenten. Davor hat er Gatsby gebaut, also zehn Jahre Open-Source-JavaScript im Ruecken. Im InfoQ Engineering Culture Podcast vom 10. April 2026 skizziert er gegenueber Shane Hastie drei Saeulen, die aus seiner Sicht eine neue Engineering-Disziplin tragen: Tiger Teams als organisatorische Einheit, Evals als Qualitaetskontrollanker, Agents als technisches Artefakt. Bhagwats zentrale These: AI Engineering folgt dem Adoptions-Pfad von DevOps und Data Engineering, nur drei- bis viermal so schnell. Wer in dieser Welle ankommen will, braucht ein anderes Org-Modell.
Warum Tiger Teams und keine Feature-Teams
Klassische Feature-Teams scheitern laut Bhagwat an einer einfachen Realitaet: AI-Projekte mappen nicht auf bestehende Org-Strukturen. Man braucht Product, Backend, ML/Data Science und QA gleichzeitig am Tisch, und zwar mit sehr kurzen Zyklen. Command-and-Control-Organisationen tun sich hier besonders schwer, weil sie Tiger Teams nicht ad hoc ueber Abteilungsgrenzen zusammenziehen koennen.
Bhagwat nennt mehrere Archetypen, die er in der Praxis beobachtet:
- CTO als Lead-Engineer: Auch in Orgs mit 150-200 Engineers sitzt bei high-risk/high-value AI-Projekten der CTO selbst am Code. Nicht als Zeichen schlechter Delegation, sondern weil die Rolle mehrere Haete gleichzeitig tragen muss.
- Prototype-Handoff: Ein kleines Team bringt das Ding bis zum funktionierenden Prototyp. Ab dann wird systematisch aufgestockt, um es produktionsreif zu machen -- erst dort entsteht das vollstaendige Tiger Team.
- Marry two mindsets: Data Scientists sind mit statistischer Unsicherheit vertraut, bauen aber selten Produktionssoftware. Software Engineers koennen deployen, denken aber nicht in Verteilungen. Die eigentliche Schwierigkeit besteht darin, beide Frames in einem Team zu verheiraten. Sprachlich fehlt der Disziplin noch das Aequivalent zu P95/P99 fuer Agenten-Qualitaet.
Das deckt sich mit der Beobachtung aus dem Three-Agent Harness von Anthropic: Trennung von Rollen (Planner, Generator, Evaluator) zahlt sich aus, und zwar auf Maschinen- wie auf Menschenebene.
Eval-First Culture: Was tatsaechlich evaluiert wird
Bhagwats staerkste Aussage: Die wertvollsten Evals sind nie die Out-of-the-Box-Benchmarks. Toxicity, Fairness, Tool-Call-Accuracy -- nett zu haben, aber generisch. Der Hebel liegt bei Evals, die gegen die eigenen Daten und Domaenenexpertise geschrieben sind. Genau an dieser Stelle trainieren die Foundation-Modelle nicht, und genau hier entsteht Wettbewerbsvorteil.
Das konkrete Vorgehen, das Bhagwat aus Mastra-Projekten beschreibt:
- SME ins Boot holen: Subject Matter Expert liefert einen Fragenkatalog, der die Domaene abdeckt.
- Referenzdaten erzeugen: Sample-Inputs (PDFs, Mitarbeiterdaten, Policy-Dokumente) plus erwartete Antworten. Das ist reine Handarbeit, oft von einem PM moderiert.
- Baseline messen: Erster Prototyp liefert z.B. 80-85% Accuracy. Dann wird klassifiziert, welche Frage-Klassen gut und welche schlecht funktionieren.
- Failure Modes systematisch abtragen: Prompts und Context werden iterativ angepasst, bis die Ziel-Accuracy erreicht ist. Das Threshold ist nicht universal -- HR-Software mit Legal-Risiko braucht 99%, ein Research-Assistent kommt mit 85% aus.
- Staged Rollout ueber Feature-Flags: 1% → 5% → 10% → 50%. Nicht Tage, sondern Wochen.
Evals sind laut Bhagwat in AI Engineering etwa zehnmal wichtiger als Tests in klassischer Softwareentwicklung, weil Nicht-Determinismus die uebliche „gruen = gut"-Logik kippt. Das schliesst an die fuenf agilen Praktiken gegen die Qualitaetsfalle an: TDD, BDD und ATDD werden nicht ersetzt, sondern auf statistische Ebene gehoben.
Agents als Artefakt, nicht als Demo
Bhagwat zieht eine scharfe Linie zwischen „agentic vibe coding" (Claude Code, Cursor im IDE) und Agents als produktive Applikations-Komponenten. Der modale Use Case, den Mastra aktuell sieht: Agent als weiterer Client der eigenen SaaS-API. Wie Web, iOS und Android ist der Agent eine neue Oberflaeche fuer dieselben Backend-Services.
Beispiel aus dem Podcast: Eine HR-SaaS-Plattform beobachtete, dass Nutzer ihre Daten als CSV exportierten und in ChatGPT einfuegten -- Privacy-Problem plus verlorener Kontext. Die Loesung war ein eingebetteter Agent, der Reports generiert und HR-Policy-Fragen gegen die echten Salary- und Document-Stores beantwortet. Technisch ein Agent mit Loop, Tools und Memory. Organisatorisch der Moment, an dem das Tiger Team gebraucht wird.
Das passt zum Muster, das Drew Breunig als Phase 2 der SDD-Entwicklung beschreibt: Software wird nicht mehr portiert, sondern um den Agenten herum neu gedacht.
Was andere Teams klauen sollten
Aus Mastras eigener Arbeitsweise nennt Bhagwat mehrere konkret uebertragbare Muster:
- Kindergarten-Channel: Interner Slack-Channel, in dem alle ohne Gesichtsverlust posten, wie sie ihre Coding-Agenten besser steuern. Name ist Programm: Man gibt zu, Anfaenger zu sein.
- Remote Pairing auf Agent-Steuerung: Das Team paired bewusst, um zu lernen, wann ein Agent „off the rails" geht. Differenz zwischen einer Sekunde und 30 Sekunden Reaktionszeit entscheidet, ob man im Flow bleibt. Verwandt mit dem, was Harness Engineering und die Token-Billionaires-Erfahrung bei OpenAI als Kern-Skill benennen.
- Agents fuer den Maintainer-Loop: Mastra hat eigene Agents gebaut, die Discord-Bug-Reports in GitHub-Issues verdichten, Repro-Schritte generieren, Changelogs schreiben und PRs von Drittanbieter-Judges bewerten lassen. Jeder Schritt des Open-Source-Maintainer-Workflows ist automatisiert.
Der Community-Aspekt, Bhagwats eigentliches Spezialgebiet seit Gatsby: Open-Source-Communities entwickeln sich von Tinkerern zu Produktionsnutzern. Maintainer muessen lernen, ihre eigenen Meinungen loszulassen und auf breitere Nutzerbeduerfnisse zu hoeren. Kommerziell erfolgreich wird OSS nur, wenn man Leute findet, die Open-Source-Grosszuegigkeit und kommerziellen Pragmatismus balancieren koennen -- weder Puristen noch reine Profit-Jaeger.
Sein Abschluss-Rat an alle, die sich dem Feld naehern: Default-Skepsis ablegen. Engineers neigen mit zunehmendem Alter dazu, Neues reflexhaft abzulehnen. Wer in AI Engineering ankommen will, muss es aushalten, eine Zeit lang schlecht zu sein.
Quellen
- Tiger Teams, Evals and Agents: The New AI Engineering Playbook -- InfoQ Podcast mit Sam Bhagwat
- Mastra -- Open-Source-TypeScript-Framework fuer AI-Agenten