11. April 2026

Tiger Teams, Evals und Agents: Das neue AI-Engineering-Playbook

Sam Bhagwat ist Co-Founder und CEO von Mastra, einem Open-Source-TypeScript-Framework fuer AI-Agenten. Davor hat er Gatsby gebaut, also zehn Jahre Open-Source-JavaScript im Ruecken. Im InfoQ Engineering Culture Podcast vom 10. April 2026 skizziert er gegenueber Shane Hastie drei Saeulen, die aus seiner Sicht eine neue Engineering-Disziplin tragen: Tiger Teams als organisatorische Einheit, Evals als Qualitaetskontrollanker, Agents als technisches Artefakt. Bhagwats zentrale These: AI Engineering folgt dem Adoptions-Pfad von DevOps und Data Engineering, nur drei- bis viermal so schnell. Wer in dieser Welle ankommen will, braucht ein anderes Org-Modell.

Warum Tiger Teams und keine Feature-Teams

Klassische Feature-Teams scheitern laut Bhagwat an einer einfachen Realitaet: AI-Projekte mappen nicht auf bestehende Org-Strukturen. Man braucht Product, Backend, ML/Data Science und QA gleichzeitig am Tisch, und zwar mit sehr kurzen Zyklen. Command-and-Control-Organisationen tun sich hier besonders schwer, weil sie Tiger Teams nicht ad hoc ueber Abteilungsgrenzen zusammenziehen koennen.

Bhagwat nennt mehrere Archetypen, die er in der Praxis beobachtet:

Das deckt sich mit der Beobachtung aus dem Three-Agent Harness von Anthropic: Trennung von Rollen (Planner, Generator, Evaluator) zahlt sich aus, und zwar auf Maschinen- wie auf Menschenebene.

Eval-First Culture: Was tatsaechlich evaluiert wird

Bhagwats staerkste Aussage: Die wertvollsten Evals sind nie die Out-of-the-Box-Benchmarks. Toxicity, Fairness, Tool-Call-Accuracy -- nett zu haben, aber generisch. Der Hebel liegt bei Evals, die gegen die eigenen Daten und Domaenenexpertise geschrieben sind. Genau an dieser Stelle trainieren die Foundation-Modelle nicht, und genau hier entsteht Wettbewerbsvorteil.

Das konkrete Vorgehen, das Bhagwat aus Mastra-Projekten beschreibt:

  1. SME ins Boot holen: Subject Matter Expert liefert einen Fragenkatalog, der die Domaene abdeckt.
  2. Referenzdaten erzeugen: Sample-Inputs (PDFs, Mitarbeiterdaten, Policy-Dokumente) plus erwartete Antworten. Das ist reine Handarbeit, oft von einem PM moderiert.
  3. Baseline messen: Erster Prototyp liefert z.B. 80-85% Accuracy. Dann wird klassifiziert, welche Frage-Klassen gut und welche schlecht funktionieren.
  4. Failure Modes systematisch abtragen: Prompts und Context werden iterativ angepasst, bis die Ziel-Accuracy erreicht ist. Das Threshold ist nicht universal -- HR-Software mit Legal-Risiko braucht 99%, ein Research-Assistent kommt mit 85% aus.
  5. Staged Rollout ueber Feature-Flags: 1% → 5% → 10% → 50%. Nicht Tage, sondern Wochen.

Evals sind laut Bhagwat in AI Engineering etwa zehnmal wichtiger als Tests in klassischer Softwareentwicklung, weil Nicht-Determinismus die uebliche „gruen = gut"-Logik kippt. Das schliesst an die fuenf agilen Praktiken gegen die Qualitaetsfalle an: TDD, BDD und ATDD werden nicht ersetzt, sondern auf statistische Ebene gehoben.

Agents als Artefakt, nicht als Demo

Bhagwat zieht eine scharfe Linie zwischen „agentic vibe coding" (Claude Code, Cursor im IDE) und Agents als produktive Applikations-Komponenten. Der modale Use Case, den Mastra aktuell sieht: Agent als weiterer Client der eigenen SaaS-API. Wie Web, iOS und Android ist der Agent eine neue Oberflaeche fuer dieselben Backend-Services.

Beispiel aus dem Podcast: Eine HR-SaaS-Plattform beobachtete, dass Nutzer ihre Daten als CSV exportierten und in ChatGPT einfuegten -- Privacy-Problem plus verlorener Kontext. Die Loesung war ein eingebetteter Agent, der Reports generiert und HR-Policy-Fragen gegen die echten Salary- und Document-Stores beantwortet. Technisch ein Agent mit Loop, Tools und Memory. Organisatorisch der Moment, an dem das Tiger Team gebraucht wird.

Das passt zum Muster, das Drew Breunig als Phase 2 der SDD-Entwicklung beschreibt: Software wird nicht mehr portiert, sondern um den Agenten herum neu gedacht.

Was andere Teams klauen sollten

Aus Mastras eigener Arbeitsweise nennt Bhagwat mehrere konkret uebertragbare Muster:

Der Community-Aspekt, Bhagwats eigentliches Spezialgebiet seit Gatsby: Open-Source-Communities entwickeln sich von Tinkerern zu Produktionsnutzern. Maintainer muessen lernen, ihre eigenen Meinungen loszulassen und auf breitere Nutzerbeduerfnisse zu hoeren. Kommerziell erfolgreich wird OSS nur, wenn man Leute findet, die Open-Source-Grosszuegigkeit und kommerziellen Pragmatismus balancieren koennen -- weder Puristen noch reine Profit-Jaeger.

Sein Abschluss-Rat an alle, die sich dem Feld naehern: Default-Skepsis ablegen. Engineers neigen mit zunehmendem Alter dazu, Neues reflexhaft abzulehnen. Wer in AI Engineering ankommen will, muss es aushalten, eine Zeit lang schlecht zu sein.

Quellen

Nach oben