Simon Willison bei Lenny's Podcast: Der Wendepunkt ist da
Hinweis: Der Feed-Eintrag bezog sich auf Martin Fowler, aber der Gast dieser Podcast-Episode ist Simon Willison -- Django-Mitgruender, unabhaengiger Entwickler und einer der profiliertesten Beobachter der AI-Coding-Szene. Fowlers Harness-Engineering-Konzept (siehe separater Artikel) bildet den Kontext, aber Willisons Aussagen gehen in eine andere Richtung: radikaler, konkreter, mit klaren Zeitlinien.
Der Wendepunkt: November 2025
Willison benennt November 2025 als den Moment, ab dem Coding-Agenten von "funktioniert meistens" zu "macht fast immer, was man ihm sagt" gesprungen sind. Ausloesend waren GPT 5.1 und Claude Opus 4.5. Vorher lieferten Agenten bei Aufgaben wie "baue mir eine Mac-Applikation" fehlerhafte Ergebnisse. Seit November funktioniert das zuverlaessig. Willison produziert nach eigener Aussage 10.000 Zeilen Code am Tag, den Grossteil davon per AI.
Dark Factories: Niemand schreibt, niemand liest
Das Konzept stammt aus der Fabrikautomation: Eine Fabrik, die so vollstaendig automatisiert ist, dass man das Licht ausschalten kann, weil kein Mensch mehr drin steht.
Willison uebertraegt das auf die Softwareentwicklung in zwei Stufen:
Regel 1: Niemand tippt Code. Willison selbst schreibt nach eigener Schaetzung 95 Prozent seines Codes nicht mehr selbst. Er arbeitet ueber die Claude-App auf dem iPhone -- auch beim Gassi-Gehen am Strand. Der Code entsteht durch Beschreibung, nicht durch Tastatureingabe.
Regel 2: Niemand liest Code. Das ist der radikalere Schritt. StrongDM hat diesen Ansatz 2025 begonnen umzusetzen. Dort gilt: Code darf weder von Menschen geschrieben noch von Menschen reviewt werden. Stattdessen uebernehmen automatisierte Systeme die Verifikation:
- Szenario-basiertes Testen statt klassischer Unit-Tests. End-to-End User Stories werden ausserhalb der Codebasis gehalten -- aehnlich einem Holdout-Set im Machine Learning, damit Agenten die Tests nicht "gamen" koennen.
- Digital Twin Universe (DTU): Coding-Agenten bauen verhaltensgetreue Klone von Drittsystemen (Okta, Jira, Slack) anhand deren API-Dokumentation. Gegen diese Klone laufen tausende Szenario-Tests pro Stunde, ohne Rate-Limits und ohne Produktionsrisiko.
Das ist ein fundamental anderer Ansatz als Fowlers Harness Engineering. Fowler baut Strukturen, damit Menschen Agent-Output pruefen koennen. StrongDM eliminiert den menschlichen Review komplett und ersetzt ihn durch Volumen und probabilistische Verifikation.
Drei Patterns fuer Agentic Engineering
Willison beschreibt drei konkrete Arbeitsweisen:
-
Red/Green TDD: Test-Driven Development, angepasst fuer AI-Workflows. Der Entwickler schreibt die Tests, der Agent schreibt die Implementierung. Klassisch, aber mit Agenten skaliert es anders.
-
Templates: Projekte mit guten Vorlagen starten, die dem Agenten Struktur vorgeben. Deckt sich mit Fowlers Harness-Gedanken, ist aber pragmatischer formuliert.
-
Hoarding: Effektive Prompts, Patterns und Loesungswege sammeln und wiederverwenden. Nicht jedes Problem neu loesen, sondern einen Werkzeugkasten aufbauen.
Die Prognose: 50 Prozent bis Ende 2026
Willisons zentrale Vorhersage: Bis Ende 2026 werden 50 Prozent aller Software-Entwickler 95 Prozent ihres Codes per AI generieren. Aufgaben, die er frueher auf zwei Wochen geschaetzt haette, dauern jetzt zwanzig Minuten.
Die Kehrseite: Erschoepfung und Suchtmuster
Die Produktivitaet hat einen Preis. Willison beschreibt, dass er vier Agenten parallel steuert und um 11 Uhr morgens fuer den Tag erledigt ist. Die mentale Belastung uebersteigt 25 Jahre Erfahrung als Entwickler.
Dazu kommen Suchtmuster: Entwickler bleiben laenger wach, weil ihre Agenten noch arbeiten koennten. Sie wachen um vier Uhr morgens auf, um Ergebnisse zu pruefen. Willison nennt das explizit "eine Parallele zu Gluecksspiel und Sucht" und warnt, dass jeder seine eigenen Grenzen finden muss, bevor es in Burnout kippt.
Die Lethal Trifecta: Prompt Injection bleibt ungeloest
Willison warnt vor drei Bedingungen, die in Kombination gefaehrlich werden:
- Private Daten im System
- Nicht vertrauenswuerdige Inhalte werden verarbeitet
- Externe Kommunikation ist moeglich
Wenn alle drei zusammenkommen, entsteht eine Angriffsflaeche fuer Prompt Injection, die derzeit nicht geloest ist. Willison vergleicht die Situation mit der "Normalisierung der Abweichung" beim Challenger-Unglueck -- man gewoehnt sich an das Risiko, bis es zu spaet ist.
ThoughtWorks-These: Die Mitte trifft es am haertesten
ThoughtWorks hat bei einem Offsite die Auswirkungen auf Entwickler in drei Gruppen analysiert:
| Erfahrungsstufe | Wirkung |
|---|---|
| Erfahrene Entwickler | AI verstaerkt vorhandene Faehigkeiten |
| Neue Entwickler | AI loest viele Onboarding-Probleme |
| Mittelfeld | Groesstes Verdraengungsrisiko |
Die mittlere Erfahrungsstufe sitzt in der Falle: nicht erfahren genug, um die Agenten strategisch zu steuern, nicht neu genug, um von den Einstiegshilfen zu profitieren. Cloudflare (1.000 Praktikanten) und Shopify reagieren darauf bereits mit massiver Einstellung von Berufseinsteigern.
Einordnung
Willisons Podcast-Auftritt und Fowlers Harness Engineering ergaenzen sich, aber sie zeigen verschiedene Philosophien:
- Fowler/Boeckeler: Strukturen bauen, die menschliche Kontrolle ueber Agenten ermoeglichen. Verifikation automatisieren, aber den Menschen im Loop halten.
- Willison/StrongDM: Den Menschen aus dem Loop nehmen. Verifikation nicht durch Menschen, sondern durch Testvolumen und probabilistische Methoden.
Beide stimmen ueberein, dass der Engpass von der Implementierung zur Verifikation wandert. Sie unterscheiden sich darin, ob Menschen bei der Verifikation noch eine Rolle spielen muessen.
Quellen
- An AI state of the union: We've passed the inflection point, dark factories are coming, and automation timelines | Lenny's Podcast mit Simon Willison (April 2026)
- Highlights from my conversation about agentic engineering on Lenny's Podcast | Simon Willison (April 2026)
- YouTube: Vollstaendiges Interview | Lenny's Podcast (April 2026)
- StrongDM Dark Factory Exploration | Simon Willison (Februar 2026)
- Reflections from the Future of Software Engineering Retreat | ThoughtWorks (2026)