AI Radar
Internes Wiki -- AI-News, Praxis-Tipps und Strömungen. 334 Artikel.
Praxis
Sofort anwendbar im Coding-Alltag
Claude Code 2.1.101: Ultraplan in der Cloud, Team-Onboarding-Generator und Enterprise-CA-Vertrauen
Mit 2.1.101 verlagert Claude Code das Task-Planning in die Cloud, generiert Onboarding-Guides aus Nutzungsdaten und vertraut endlich OS-CA-Stores für Enterprise-TLS-Proxies. Zusammen mit zahlreichen Bug-Fixes ein wichtiges Update für alle Plan-Mode- und Long-Session-Nutzer.
DecisionNode: Geteiltes strukturiertes Memory für alle AI-Coding-Tools über MCP
DecisionNode ist ein Open-Source-MCP-Server, der Entscheidungen und Projektkontext in einem lokalen Vector-Store ablegt -- semantisch durchsuchbar aus Claude Code, Cursor, Windsurf und jedem anderen MCP-Client. Statt CLAUDE.md, .cursorrules und AGENTS.md parallel zu pflegen, liegt das Wissen einmal strukturiert und wird explizit zur Laufzeit abgerufen.
OpenClaw-Ökosystem: Twill, Eve und DecisionNode bündeln den Wildwuchs
Rund um den OpenClaw-Boom entsteht in Echtzeit eine Tooling-Schicht: Twill.ai delegiert PRs an Cloud-Agenten, Eve hostet OpenClaw für Teams, DecisionNode liefert geteilten Memory-Layer über MCP. Drei Beispiele für das schnelle Wachstum eines parallelen AI-Coding-Stacks.
Twill.ai -- Cloud-Agenten, die Pull Requests zurueckliefern
Das YC-S25-Startup Twill.ai ist ueber einen Launch HN in die oeffentliche Sichtbarkeit gekommen und positioniert sich im wachsenden Feld asynchroner Coding-Agenten, die Aufgaben per Ticket entgegennehmen und fertige PRs zurueckgeben.
Agentic TDD: Warum Test-Driven Development der natürliche Partner von Coding-Agenten ist
Test-Driven Development galt für Menschen lange als teuer. Für AI-Agenten ist es das Gegenteil: ein mechanischer Verifikationsprozess, der Babysitting überflüssig macht und den Agenten zuverlässig iterieren lässt, bis die Suite grün ist.
Tiger Teams, Evals und Agents: Das neue AI-Engineering-Playbook
Sam Bhagwat (Mastra) beschreibt im InfoQ-Podcast drei Saeulen, die Teams brauchen, um agentic Applications tatsaechlich in Produktion zu bringen: cross-funktionale Tiger Teams, domaenenspezifische Evals und Agents als technisches Artefakt.
Deterministisches Graph-RAG in drei Schichten
Ein praktisches Tutorial für ein dreischichtiges Graph-RAG-System, das deterministischere Retrieval-Pfade liefert als reine Vektorsuche. Wann sich der Aufwand lohnt, welche Tools sich eignen und welche Patterns produktionsreif sind.
MLOps-Retraining: Modelle vergessen nicht, sie bekommen Schocks
Ein Towards-Data-Science-Experiment auf 555.000 Fraud-Transaktionen widerlegt das Ebbinghaus-Bild vom langsam vergessenden Modell. Die exponentielle Zerfallskurve fittet mit R² = -0.31 -- schlechter als eine flache Linie. Konsequenz: Kalender-basiertes Retraining ist naiv, Shock-Detection ist der bessere Ansatz, auch fuer LLM-Systeme mit RAG und Fine-tuning.
OpenClaw-Praxis: Enthusiasmus bei c't, Ernuechterung bei NonBioS
Zwei Signale in derselben Woche: c't 3003 zeigt OpenClaw als faszinierenden Dauerlaeufer mit Lerneffekt, waehrend Nishant Soni nach rund tausend Deploys auf seiner Infrastruktur zum Ergebnis kommt, dass das Memory stillschweigend kippt -- und man erst merkt, dass es kaputt ist, wenn der Schaden angerichtet ist. Was beide Blickwinkel fuer den praktischen Umgang mit Agenten-Memory bedeuten.
Plan Mode als Schutz bei riskanten Umbauten in Claude Code
Wer Claude Code grössere Infrastruktur-Umstellungen machen lässt, sollte zwingend im Plan Mode starten. Der Agent darf lesen, aber nicht editieren, bis ein schriftlicher Plan vom Nutzer genehmigt ist. Praxis-Erfahrung aus einer Netlify-zu-eigener-Server-Migration.
Anthropic rollt Claude Cowork breit aus und startet Managed Agents
Claude Cowork ist ab sofort fuer alle Paid Plans auf macOS und Windows verfuegbar und bekommt neue Organisations-Controls. Parallel startet Anthropic mit Claude Managed Agents eine eigene Produktkategorie fuer gehostete, selbststaendig laufende Agenten.
Claude Code 2.1.98: Subagent-Monitor, Perforce-Mode und kritischer Bash-Permission-Fix
Die Releases 2.1.94 bis 2.1.98 bringen sichtbare Subagenten, schaerfere Bash-Permissions inklusive eines RCE-faehigen Bypass-Fixes sowie neue Integrationen fuer Vertex AI, Bedrock-via-Mantle und Perforce.
LLM-Serving-Engines 2026: vLLM, Ollama, SGLang, TensorRT-LLM im Vergleich
Vier Engines dominieren das LLM-Serving: Ollama fuer lokale Entwicklung, vLLM als Produktions-Default, SGLang fuer Shared-Context-Workloads, TensorRT-LLM fuer maximale NVIDIA-Performance. Jede loest ein anderes Problem.
NVIDIA AITune: Automatischer Benchmark-Runner für PyTorch-Inference-Backends
NVIDIAs neues Open-Source-Tool AITune testet automatisch verschiedene Inference-Backends für ein PyTorch-Modell und liefert das schnellste Setup. Damit wird der bisher mühsame manuelle Vergleich von TensorRT, Torch Inductor, TorchAO und anderen Engines reproduzierbar und objektiv.
Agent-Memory ohne Hype: Wann Kurzzeit, wann Langzeit
Ein praktischer Leitfaden zur Memory-Architektur von AI-Agenten. Wer baut, braucht eine klare Unterscheidung zwischen Kurzzeit-Kontext und Langzeit-Erinnerung -- nicht jeder Use-Case braucht ein komplexes Memory-System. Konkrete Patterns, typische Fehler und Tooling-Empfehlungen.
Linux-Kernel formalisiert Regeln für AI-Coding-Assistenten
Der Linux-Kernel hat offizielle Richtlinien veröffentlicht, wie AI-Coding-Assistenten bei Beiträgen verwendet werden dürfen. Mit Disclosure-Pflicht, Verantwortungszuweisung und praktischen Regeln ist das Dokument ein Vorbild für andere Open-Source-Projekte und Unternehmen.
Der System-Prompt ist das Produkt, nicht das Feature
Ein praxisrelevanter Perspektivwechsel aus der Towards-AI-Community: Wer eine LLM-basierte App baut, sollte den System-Prompt wie ein Kernprodukt behandeln -- mit Versionierung, Evals und Ownership. Konkrete Empfehlungen für Prompt-Strukturierung, Testing und Rollout.
Agent-Infrastruktur: Colab MCP Server, botctl und Skrun
Drei neue Tools fuer Agent-Infrastruktur: Google oeffnet Colab per MCP fuer AI-Agenten, botctl verwaltet autonome Bots als Prozesse, und Skrun macht Agent Skills per API aufrufbar.
tui-use: AI-Agenten steuern interaktive Terminal-Programme
tui-use gibt AI-Agenten Zugriff auf REPLs, Debugger und TUI-Apps. Ein Headless-xterm-Emulator ueberwacht den PTY-Event-Stream in Echtzeit -- ohne Screenshot-Parsing.
VS Code 1.115: Neue Agents-Companion-App fuer parallele Agent-Sessions
VS Code 1.115 fuehrt eine eigenstaendige Agents-App ein, die parallele Agent-Sessions ueber mehrere Repos ermoeglicht -- aktuell als Insiders-Preview verfuegbar.
Fuenf agile Praktiken gegen die Qualitaetsfalle bei AI-generiertem Code
AI-Coding-Assistenten steigern die Produktivitaet um 15-55%, aber ohne Leitplanken drohen Sicherheitsluecken und technische Schulden. Fuenf bewaehrte agile Methoden schaffen die noetige Absicherung.
Expertise als AI-Skill kodifizieren: Warum Prompts nicht reichen und was stattdessen funktioniert
Phodal Huang hat zehn Jahre Schreiberfahrung in ein wiederverwendbares AI-Skill-System destilliert. Die Drei-Stufen-Methodik -- historische Segmentierung, Musterextraktion, Regeluebersetzung -- ist uebertragbar auf jede kodifizierbare Expertise: Code Reviews, Architekturentscheidungen, Debugging.
Research-Driven Agents: Coding-Agenten liefern bessere Ergebnisse, wenn sie zuerst recherchieren
SkyPilot zeigt an llama.cpp, dass ein Coding-Agent mit vorgelagerter Recherche-Phase -- Papers lesen, konkurrierende Projekte studieren -- signifikant bessere Optimierungen findet als einer, der direkt am Code ansetzt. 15% schnellere Textgenerierung auf x86, Gesamtkosten $29.
Astropad Workbench -- Remote Desktop fuer AI-Agenten auf dem Mac Mini
Astropad positioniert sein neues Tool Workbench als Remote-Desktop-Loesung fuer die Ueberwachung und Steuerung von AI-Agenten auf Mac Minis -- per iPhone oder iPad.
Claude Managed Agents -- Anthropics Plattform fuer produktionsreife AI-Agenten
Anthropic launcht Managed Agents als Public Beta -- composable APIs fuer cloud-hosted Agenten mit Sandboxing, Multi-Agent-Koordination und Governance.
GitHub Copilot CLI: Rubber Duck Review Agent
GitHub Copilot CLI bekommt einen experimentellen Review-Agenten, der ein zweites KI-Modell als unabhaengigen Code-Reviewer einsetzt
Google AI Edge Eloquent -- Offline-Diktat mit On-Device Gemma
Google veroeffentlicht eine kostenlose Diktier-App fuer iOS, die dank On-Device-Gemma-Modell komplett offline funktioniert und Sprache in bereinigten Text umwandelt.
Marimo Pair und Gemma Fine-Tuner: Zwei Open-Source-Tools fuer AI-Agenten-Entwicklung
Marimo Pair bringt AI-Agenten direkt in reaktive Python-Notebooks. Der Gemma Multimodal Fine-Tuner ermoeglicht LoRA-Fine-Tuning von Gemma 4 auf Apple Silicon -- inklusive Audio und Bild.
Microsoft Agent Governance Toolkit: Sicherheitsleitplanken für AI-Agenten
Open-Source-Toolkit von Microsoft, das die OWASP Top 10 Risiken für AI-Agenten mit Runtime-Policies, sicherer Kommunikation und Compliance-Überwachung adressiert.
Feedback Flywheel und "Run Out to Meet It" -- Zwei Denkmodelle fuer AI-Teams
Martin Fowler beschreibt den Feedback Flywheel als systematischen Weg, AI-Learnings im Team zu verankern. Kent Beck argumentiert, dass AI die Expertise-Hierarchie zuruecksetzt.
Freestyle: Sandbox-Infrastruktur für Coding-Agenten
Freestyle bietet Git, VMs und Deployments als API für KI-Coding-Agenten. Agenten können damit Repos klonen, Dev-Server starten, VM-Instanzen forken und Code deployen.
Reducto Deep Extract: Agenten-basierte Dokumentenextraktion mit Selbstkorrektur
Reducto launcht Deep Extract -- einen Agenten-Ansatz für strukturierte Dokumentenextraktion, der seine eigene Ausgabe in einer Verifikationsschleife prüft und korrigiert. 99-100% Feldgenauigkeit bei komplexen Dokumenten.
Context Engineering: Die eigentliche Disziplin hinter funktionierenden AI-Agenten
Die meisten Agent-Fehler sind keine Modell-Fehler, sondern Kontext-Fehler. Context Engineering -- das gezielte Zusammenstellen, Isolieren und Reduzieren von Kontext -- entscheidet ueber Erfolg und Misserfolg. Ein Deep Dive mit Praxisbeispiel.
Harness Engineering: Was passiert bei 1 Milliarde Tokens pro Tag
Ryan Lopopolo (OpenAI) beschreibt, wie sein Team eine Million LOC ohne menschlichen Code oder Code-Review produziert -- und was Harness Engineering fuer Entwickler bedeutet.
Anthropics Three-Agent Harness: Planner, Generator, Evaluator
Anthropic veroeffentlicht ein Multi-Agent-Framework, das Planung, Code-Generierung und Evaluation auf drei spezialisierte Agenten verteilt. Ermoeglicht mehrstuendige autonome Entwicklungssessions ohne Kontextverlust.
ctx und Apfel: Zwei neue Werkzeuge fuer AI-Entwickler
ctx bringt ein dediziertes Agentic Development Environment fuer Multi-Agent-Workflows. Apfel macht Apples eingebautes Sprachmodell per CLI und API nutzbar -- komplett on-device und kostenlos.
Simon Willison bei Lenny's Podcast: Der Wendepunkt ist da
Simon Willison erklaert auf Lenny's Podcast, warum November 2025 der Wendepunkt fuer Coding-Agenten war, was Dark Factories sind und warum 50 Prozent aller Entwickler bis Ende 2026 95 Prozent ihres Codes per AI schreiben werden.
AI-Agenten in Monorepos: Was anders konfiguriert werden muss
Monorepos brauchen andere Agent-Konfiguration als Single-Repos -- von Scope-Routing ueber Workspace-gefilterte Commands bis zu Dependency-aware Verification. Ein Praxis-Leitfaden.
Beyond RAG: Memory-Architekturen fuer AI-Agenten
RAG mit Vector-Datenbanken ist nicht die einzige Loesung fuer AI-Wissensmanagement. Googles Memory Agent Pattern, Mintlifys Virtual Filesystem und eine wachsende Zahl von Memory-Frameworks zeigen: Agent Memory ist Infrastruktur, nicht Feature.
Der Single-Agent Sweet Spot, den niemand zugeben will
95 Prozent aller Agenten schaffen es nie in Produktion -- meistens weil die Architektur zu komplex gewaehlt wurde. Ein einzelner Agent mit guten Tools schlaegt in den meisten Faellen ein Multi-Agent-System.
Starving Genies: Warum alle AI-Anbieter gleichzeitig Usage-Limits einfuehren
Kent Beck analysiert mit seinem 3X-Framework, warum alle grossen AI-Anbieter gleichzeitig Nutzungslimits einfuehren. Der Engpass ist nicht technisch, sondern narrativ -- Investoren brauchen einen sichtbaren Pfad zur Profitabilitaet.
Wie Claude Code wirklich funktioniert: Die offizielle Architektur
Anthropics offizielle Dokumentation erklaert die Drei-Phasen-Schleife, das Kontextfenster als knappe Ressource und die Scaling-Muster -- vom Session-Management ueber Checkpoints bis zu parallelen Agenten.
Agent-Monitoring und Multi-Agent-Tooling: Agents Observe und Baton
Zwei neue Tools adressieren blinde Flecken beim Arbeiten mit AI-Coding-Agenten -- Agents Observe liefert Echtzeit-Monitoring fuer Claude Code, Baton verwaltet mehrere Agenten in isolierten Worktrees.
Microsoft Copilot Cowork -- Multi-Modell-Workflows und Council
Mit Copilot Cowork fuehrt Microsoft Multi-Modell-Workflows in Microsoft 365 ein: GPT generiert, Claude prueft -- und das Council-Feature zeigt Antworten verschiedener Modelle nebeneinander.
Cursor 3: Agent-Modus und der Dreikampf der Coding-Tools
Cursor veroeffentlicht Version 3 mit neuem Agent-Erlebnis und konkurriert nun direkt mit Claude Code und OpenAI Codex. Gleichzeitig fuehrt OpenAI flexible Preise fuer Codex Teams ein.
Google AI Updates Maerz 2026: Was Entwickler wissen muessen
Googles Maerz-Rundschau bringt Workspace-KI, Gemini API Spend Caps, Vibe Coding in AI Studio und Ask Maps -- ein Ueberblick mit Fokus auf Developer-Relevanz.
Koog: JetBrains' Enterprise AI Agent Framework fuer Java
JetBrains veroeffentlicht Koog, ein JVM-natives Framework fuer AI-Agenten in Java und Kotlin. Enterprise-Backends koennen LLMs jetzt ohne Python-Abhaengigkeiten orchestrieren. Parallel bringt Helidon 4.4.0 agentic AI Support via LangChain4j.
Sakana Marlin: Ultra Deep Research fuer autonome Strategiearbeit
Sakana AI stellt mit "Marlin" einen autonomen Forschungsagenten vor, der bis zu 8 Stunden selbststaendig recherchiert und fertige Strategieanalysen liefert. Beta-Zugang ab sofort.
Windsurf: Cognitions AI-IDE fuehrt die Dev-Tool-Rankings an
Windsurf, nach der Uebernahme durch Cognition (Devin) weiterentwickelt, fuehrt im Maerz 2026 die AI-Dev-Tool-Rankings an -- mit SWE-1.5, Arena Mode, parallelen Agenten und einem Preismodell-Umbau.
Die zweite Phase der Agentic-Entwicklung: Von Ports zu Neuerfindungen
Drew Breunig beschreibt den Uebergang von der ersten SDD-Phase (Klone und Ports mit bestehenden Test-Suites) zur zweiten Phase, in der Coding-Agenten Software von Grund auf neu denken.
AI Coding Tools 2026 -- das aktuelle Ranking
Claude Code fuehrt die Nutzungsstatistiken an, Cursor waechst rasant, Codex erreicht aus dem Stand 60% von Cursors Usage. Der Markt teilt sich in drei Paradigmen -- und die meisten Entwickler kombinieren mehrere Tools.
Cockcroft: Agent-Schwaerme dirigieren statt Agenten prompten
Adrian Cockcroft (ex-Netflix VP Cloud Architecture) zeigt seinen Director-Level-Ansatz zum Steuern autonomer Agent-Schwaerme mit Cursor, Claude Flow und MCP-Servern -- inklusive konkreter Erfahrungswerte aus BDD-Experimenten und Language Porting.
Harness Engineering: Coding-Agenten systematisch steuern
Martin Fowler veroeffentlicht Birgitta Boeckelers Konzept des Harness Engineering -- eine Disziplin fuer das Bauen von Strukturen, die Coding-Agenten in die richtige Richtung lenken. Dazu drei neue Denkmodelle aus Fowlers Fragments.
Eigenen Coding-Agenten bauen: Was zwischen Agent-Loop und Claude Code liegt
Victor Dibia zeigt, warum eine einfache Agent-Loop fuer echte Coding-Aufgaben scheitert und welche drei Erweiterungen -- Tools, Hooks und Context Management -- den Unterschied zu produktionsreifen Agenten wie Claude Code ausmachen.
Team-Standards als Infrastruktur: Martin Fowler ueber AI-Coding-Instruktionen
Martin Fowler argumentiert: AI-Coding-Instruktionen sollten wie Infrastruktur behandelt werden -- versioniert, reviewed und geteilt. Parallel fordern Agentic-Engineering-Patterns mehr Disziplin.
Wenn AI-Agenten ueberraschen: Werbung in PRs und git reset --hard
GitHub Copilot fuegt Werbung in PRs ein und zieht sie nach Backlash zurueck. Claude Code fuehrt periodisch git reset --hard aus. Beide Faelle zeigen: Agent-Autonomie braucht Leitplanken.
AI-Refactoring in der Produktion: $400 gegen $500k Serverkosten
Drei Fallstudien zeigen AI-gestuetztes Refactoring im Produktionseinsatz: Ein JSONata-Rewrite spart 500.000 Dollar/Jahr, eine Solo-Postgres-Extension schlaegt etablierte Alternativen, ein Agent baut eine JS-Engine.
CLAUDE.md als Steuerungsinstrument: Token-Optimierung und Verhaltenskontrolle
CLAUDE.md/AGENTS.md als Steuerungsinstrument: Token-Optimierung vs. ETH-Studie die zeigt, dass auto-generierte Context-Files Erfolgsraten um 0.5-3% senken und Kosten um 20-23% erhoehen.
Meta: Structured Prompts machen LLMs zuverlaessiger beim Code Review
Meta-Forscher erreichen 93% Accuracy bei Code-Patch-Verifikation durch LLMs -- ohne Code-Ausfuehrung, nur mit strukturierten Prompts und semi-formalem Reasoning.
Spec Layer und TCR: Neue Qualitaetskontrolle fuer AI-generierten Code
Matt Rickard argumentiert fuer eine 'Spec Layer' -- formale Spezifikationen statt nur Tests. Kent Beck experimentiert mit TCR fuer AI-Agents: Code wird bei fehlgeschlagenen Tests automatisch verworfen.
Google Gemini Agent Skill: Wie ein simpler Fix die SDK-Wissensluecke schliesst
AI-Modelle kennen ihre eigenen SDK-Updates nicht. Googles neues Agent Skill Feature injiziert aktuelle Dokumentation als Kontext und verbessert Coding-Ergebnisse drastisch.
Architektur statt Code: Was beim Arbeiten mit AI-Agents wirklich zaehlt
Matt Webb, Thorsten Ball und John Regehr argumentieren unabhaengig: Die wichtigste Faehigkeit beim Agent-Coding ist nicht Prompt-Engineering, sondern Architektur-Denken, Wissensverteilung und Constraints.
Anatomie des .claude/ Ordners: Claude Code richtig konfigurieren
Ein viraler HN-Artikel (552 Punkte) erklaert die Struktur des .claude/ Verzeichnisses. CLAUDE.md, Settings, Commands und Memory -- wer Claude Code produktiv nutzen will, sollte hier investieren.
OpenAI Codex Plugin-Marketplace: Zentrale Steuerung fuer Agent-Erweiterungen
OpenAI fuehrt ein Plugin-System fuer Codex ein -- installierbare Bundles mit Skills, Integrationen und MCP-Servern, gesteuert ueber JSON-basierte Governance-Kataloge auf Repo- oder Unternehmensebene.
Cohere Spracherkennung: Open-Source-Modell uebertrifft Whisper
Cohere veroeffentlicht ein Open-Source Speech-to-Text-Modell mit 2 Milliarden Parametern unter Apache 2.0 -- laut Benchmarks besser als OpenAIs Whisper, lauffaehig auf Consumer-GPUs.
Mistral Voxtral TTS: Open-Source Text-to-Speech fuer Edge-Geraete
Mistral veroeffentlicht Voxtral TTS, ein auf Ministral 3B basierendes Open-Source-TTS-Modell das auf Smartwatches laeuft, 9 Sprachen unterstuetzt und Voice-Cloning aus unter 5 Sekunden Audio beherrscht.
TypeScript 6.0: Letzte JS-basierte Version vor dem Go-Umstieg
TypeScript 6.0 ist als GA erschienen -- die letzte Version auf JavaScript-Codebasis. Sie dient als Bruecke zum Go-basierten TypeScript 7.0 und bringt besseres Type-Checking, ein neues stableTypeOrdering-Flag und es2025-Support.
Vercel JSON-Render: Generative UI aus strukturiertem JSON
Vercel veröffentlicht json-render als Open Source (Apache 2.0) -- ein Framework, das AI-Modellen ermöglicht, strukturierte Benutzeroberflächen aus natürlichsprachlichen Prompts zu komponieren.
Figma MCP: Design-Canvas wird Agent-steuerbar
Figma hat seinen MCP-Server in Open Beta gelauncht. AI-Agents können jetzt direkt auf der Design-Canvas arbeiten -- Cursor, Copilot CLI und Claude Code nutzen das bereits. Uber automatisiert mit uSpec ganze Design-Specs in Minuten statt Wochen.
Cloudflare Dynamic Workers: Runtime fuer AI-Agent-Code
Cloudflare launcht Dynamic Workers, eine isolate-basierte Runtime die AI-generierten Code schneller und sicherer ausfuehrt als traditionelle Container -- gebaut fuer die Agent-Aera.
Ensu: Entes lokale LLM-App mit Privacy-First-Ansatz
Ente, bekannt fuer verschluesselten Foto-Speicher, veroeffentlicht Ensu -- eine App fuer lokale LLM-Inferenz, bei der keine Daten das Geraet verlassen.
Google Stitch: KI generiert interaktive UI-Prototypen aus Text
Google erweitert Stitch zum KI-Design-Editor, der aus Sprach- oder Textbeschreibungen interaktive UI-Prototypen generiert -- ein Werkzeug fuer schnelles Prototyping ohne Designkenntnisse.
MolmoWeb: Offener Web-Agent navigiert nur mit Screenshots
AI2 veroeffentlicht MolmoWeb, einen vollstaendig offenen Web-Agenten mit 4B und 8B Parametern, der Websites ausschliesslich ueber Screenshots navigiert -- ohne DOM-Zugriff oder HTML-Parsing.
Zed Zeta2: Edit-Prediction von Grund auf neu gebaut
Zed veroeffentlicht Zeta2, ein komplett neu trainiertes Edit-Prediction-Modell das 30% besser als Zeta1 abschneidet und Codeaenderungen im Editor voraussagt.
Dependency Cooldowns: Neue Packages nicht sofort installieren
Nach dem LiteLLM-Angriff fordert Simon Willison Dependency Cooldowns -- die Praxis, neue Package-Versionen erst nach einer Wartezeit zu installieren, um Supply-Chain-Attacken das Zeitfenster zu nehmen.
Claude Code Tipps für den Alltag
Praktische Tipps und Workflows für effektives Arbeiten mit Claude Code, inkl. Auto Mode, Sub-Agents, Skills und MCP-Server
Claude Code steuert jetzt den Desktop
Anthropic erweitert Claude Code und Cowork um Computer Use -- der AI-Agent kann Maus, Tastatur und Browser autonom bedienen
Hypura: Storage-tier-aware LLM-Inference auf Apple Silicon
Hypura ist ein Scheduler, der LLM-Inferenz auf Apple Silicon optimiert, indem er Modell-Layer intelligent zwischen RAM und SSD-Swap verteilt.
JetBrains Central -- Kontrollzentrum fuer AI-Agents
JetBrains stellt Central vor, eine Plattform zum Steuern, Ueberwachen und Optimieren von AI-Agent-Workflows ueber IDEs und Teams hinweg
Mozilla cq -- Stack Overflow fuer AI-Coding-Agents
Mozilla launcht cq, ein System zum Teilen von Wissen zwischen AI-Coding-Agents ueber standardisierte Knowledge Units
AI-Modelle systematisch vergleichen und auswaehlen
Ein strukturierter Drei-Stufen-Ansatz zur Modell-Auswahl fuer agentic Tasks -- von Benchmarks bis zum eigenen Testing
Context Anchoring -- Gegen das Vergessen in langen AI-Sessions
ThoughtWorks-Forschung zeigt, wie Context Compaction in langen AI-Coding-Sessions zu Fehlern fuehrt, und was dagegen hilft
AI-generierte PRs mergen halb so oft -- Code war nie der Engpass
LinearB-Benchmarks 2026 und Agoda-Analyse zeigen, dass AI-Code schneller entsteht, aber am Review-Prozess scheitert
StoatWaffle -- Malware greift Entwickler ueber VS Code an
Neue Malware-Variante nutzt VS Code tasks.json mit runOn:folderOpen, um bei Projekt-Oeffnung automatisch Schadcode auszufuehren
DSPy in der Praxis -- Engineering Patterns statt Hype
Warum DSPy trotz guter Ideen kaum genutzt wird und welche Engineering Patterns tatsaechlich funktionieren
Ohne Titel
Strömungen
Forschung & Trends -- gut davon gehört zu haben
Overworld Waypoint-1.5: Generative 3D-Welten auf Konsumenten-Hardware
Overworlds neues Waypoint-1.5-Modell generiert interaktive 3D-Welten direkt auf Mac und Windows ohne dedizierte GPU-Cluster. Damit verschiebt sich die Schwelle für World Models von Cloud-Rechenzentren auf Entwickler-Notebooks -- mit Folgen für Game Development, Simulation und Robotik-Training.
Alibaba VimRAG: Memory Graph für multimodale Kontexte
Alibabas Tongyi Lab veröffentlicht VimRAG, ein multimodales RAG-Framework, das Memory Graphs statt reine Vektorsuche für die Navigation in großen visuellen Kontexten nutzt. Ein Schritt weg von rein semantischem Retrieval -- in Richtung deterministischer, strukturierter Memory-Architekturen für Bilder, Layouts und Diagramme.
Gemini-Wasserzeichen zerlegt: Reverse-Engineering von SynthID
Der Entwickler Alosh Denny (aloshdenny) hat Googles SynthID-Watermarking fuer Gemini-Bilder ohne Zugriff auf Encoder oder Decoder rueckentwickelt. Sein Repository 'reverse-SynthID' zeigt, dass das Wasserzeichen aus resolutionsabhaengigen Traegerfrequenzen im FFT-Spektrum besteht -- und liefert ein CLI, das sie mit 43 dB PSNR wieder entfernt. Die Debatte um AI-Provenance verschiebt sich damit erneut.
Alibabas Happy Horse dominiert Video-Benchmarks
Das unter Pseudonym veroeffentlichte Videomodell Happy Horse 1.0 hat aus dem Stand die Spitze der Text-to-Video- und Image-to-Video-Benchmarks uebernommen. Laut The Information steckt Alibabas Cloud-Sparte dahinter -- vermutlich die naechste Generation der offenen Wan-Familie aus dem Tongyi Lab.
Google Gemini generiert interaktive 3D-Modelle und Simulationen
Gemini antwortet auf komplexe Fragen nicht mehr nur mit Text, sondern mit live manipulierbaren 3D-Modellen, Diagrammen und Simulationen direkt im Chat. Verfuegbar im Pro-Tier ueber gemini.google, ausgeloest durch Phrasen wie 'show me' oder 'help me visualize'.
178 KI-Modelle per Schreibstil identifiziert -- Fingerprinting und Similarity-Cluster
Rival Tips hat 178 KI-Modelle anhand von 32 stilometrischen Dimensionen fingerprinted und dabei 9 Klon-Cluster mit ueber 90% Aehnlichkeit identifiziert. Die Analyse zeigt: Viele Modelle unterschiedlicher Anbieter schreiben nahezu identisch.
CompreSSM: MIT-Forscher komprimieren AI-Modelle während des Trainings
MIT-Technik CompreSSM nutzt Hankel-Singulärwerte aus der Kontrolltheorie, um State Space Models bereits nach 10% des Trainings auf ihre wesentlichen Komponenten zu reduzieren. Ergebnis: bis zu 4x schnelleres Training bei gleicher oder besserer Accuracy.
Gemini Notebooks: Google verzahnt NotebookLM mit der Gemini-App
Google integriert Notebooks direkt in die Gemini-App und verbindet damit Chat-Interface und NotebookLM-Recherche an einem Ort. Die Strategie: weniger App-Wechsel, breitere Reichweite fuer das bisherige Nischen-Tool.
Hierarchical Agentic RAG -- Supervisor-Worker-Architektur mit autonomer Fehlerkorrektur
InfoQ beschreibt eine hierarchische RAG-Architektur mit Supervisor-Worker-Topologie und reflektiver Fehlerkorrektur, die Halluzinationen von 28,5% auf 7,1% senkt und modalitaetsuebergreifende Abfragen zuverlaessig beantwortet.
PaperOrchestra: Googles Multi-Agent-Framework fuer automatisierte Forschungsarbeiten
Google Cloud AI Research stellt PaperOrchestra vor -- ein Multi-Agent-System das aus unstrukturierten Forschungsnotizen einreichungsfertige LaTeX-Manuskripte erzeugt. In menschlichen Evaluationen uebertrifft es bestehende Ansaetze mit 50-68% Vorsprung bei der Literaturuebersicht.
AWS Agent Registry: Zentrale Verwaltung gegen Agentic Sprawl
AWS startet die Agent Registry in Preview -- ein zentraler Discovery- und Governance-Hub für AI-Agenten im Unternehmen. Zusammen mit dem neuen Browser Agent für React-Apps entsteht ein umfassendes Agent-Infrastruktur-Ökosystem, das über die eigene Cloud hinausreicht.
MCP Dev Summit: Gateways, Stateless Sessions und Enterprise-Infrastruktur
Auf dem ersten MCP Dev Summit der Agentic AI Foundation (Linux Foundation) in New York skizzieren Anthropic, AWS, Uber und andere den Weg von lokalen stdio-Servern zu Enterprise-Infrastruktur. MCP Gateways etablieren sich als Control Plane für Agent-Interaktionen.
GLM-5.1 -- Z.AIs 754B-Modell laeuft autonom acht Stunden
Z.AI veroeffentlicht GLM-5.1 als Open-Weight-Modell mit 754 Milliarden Parametern. Es erreicht SOTA auf SWE-Bench Pro und kann acht Stunden autonom arbeiten.
Muse Spark -- Metas erstes Modell aus den Superintelligence Labs
Meta veroeffentlicht Muse Spark, ein nativ multimodales Reasoning-Modell -- das erste Produkt der neuen Superintelligence Labs unter Alexandr Wang. Es ist kompetitiv, aber kein neues State-of-the-Art.
Agent-Infrastruktur: ByteDances DeerFlow und das Transport-Layer-Problem
Zwei Entwicklungen auf verschiedenen Ebenen der Agent-Infrastruktur: ByteDance veroeffentlicht mit DeerFlow ein LangGraph-basiertes Framework mit Sandbox-Isolation und paralleler Ausfuehrung. Gleichzeitig zeigt eine Netflix-Analyse, dass der Transport Layer bei Multi-Turn-Agenten zum Performance-Engpass wird -- Stateful Continuation reduziert den Payload um ueber 80 Prozent.
JetBrains setzt auf ACP und Deep Agents fuer IDE-integrierte AI-Agenten
JetBrains erklaert, wie das Agent Client Protocol und LangChains Deep Agents Framework AI-Agenten nativ in IDEs integrieren -- ein Gegenentwurf zu terminalbasierten Agenten.
Gemma 4: Zwei Millionen Downloads und die Local-First-Welle
Googles Gemma 4 erreicht in einer Woche zwei Millionen Downloads. Das Modell läuft auf Consumer-Hardware und befeuert die Diskussion über lokale Alternativen zu Cloud-Abonnements.
Drei Open-Source-Signale -- Harrier, Meta und GLM-5.1
Microsoft open-sourced das Embedding-Modell Harrier unter MIT-Lizenz, Meta kuendigt eine hybride Open-Source-Strategie an, und Zhipus GLM-5.1 erreicht 94% von Claude Opus 4.6 bei Coding-Tasks -- alles innerhalb einer Woche.
Multi-Agent-Orchestrierung: Neue Werkzeuge fuer parallele Agenten
Drei Entwicklungen zeigen, wie sich Multi-Agent-Orchestrierung konkretisiert: Googles Open-Source-Testbed Scion isoliert Agenten auf Infrastrukturebene, Output.ai buendelt Produktionserfahrung aus 500+ Agenten in ein TypeScript-Framework, und ein praxisnaher Leitfaden zu Race Conditions liefert die Grundlagen fuer robuste parallele Systeme.
Qwen-3.6-Plus: Erstes Modell mit einer Billion Tokens pro Tag
Qwen-3.6-Plus verarbeitet laut OpenRouter als erstes Modell ueber eine Billion Tokens taeglich. Das ist ein Indikator fuer die rasant steigende Nutzung chinesischer Open-Source-Modelle.
FIPO: Alibabas Qwen-Team bringt Reasoning-Modelle zum tieferen Denken
Future-KL Influenced Policy Optimization (FIPO) gewichtet jeden Reasoning-Schritt nach seinem Einfluss auf nachfolgende Schritte. Ergebnis: Antwortlaenge von 4.000 auf 10.000+ Tokens, AIME-Genauigkeit uebertrifft o1-mini.
Arcee Trinity Large Thinking -- Open-Source Reasoning unter Apache 2.0
Arcee AI veroeffentlicht mit Trinity Large Thinking ein 398B-MoE-Reasoning-Modell unter Apache 2.0, das auf agentische Workflows und Tool-Nutzung spezialisiert ist.
Zhipu GLM-5V-Turbo -- Design-Mockups direkt in Frontend-Code
Zhipu AIs multimodales Coding-Modell wandelt Design-Mockups in ausfuehrbaren Frontend-Code um und integriert Wahrnehmung, Planung und Ausfuehrung fuer Agent-Workflows.
Gas Town erreicht v1.0 -- Multi-Agent Framework wird erwachsen
Steve Yegges Multi-Agent-Orchestrierungsframework Gas Town hat zusammen mit dem Issue-Tracking-System Beads die Version 1.0.0 erreicht. Nach drei Monaten intensiver Entwicklung und 14 Vorab-Releases stellt sich die Frage: Ist das Framework aus der experimentellen Phase herausgewachsen?
Gemma 4: Googles leistungsfaehigste offene Modellfamilie jetzt unter Apache 2.0
Google DeepMind veroeffentlicht Gemma 4 mit vier Modellen unter Apache 2.0 -- erstmals ohne proprietaere Lizenz. Von 2B bis 31B, alle vision-faehig und fuer lokale Ausfuehrung optimiert.
GPT-5.4 -- Tool Search und die drei Varianten
OpenAIs GPT-5.4 bringt mit Tool Search eine neue Architektur fuer dynamisches Tool-Calling, drei Modellvarianten und ein 1M-Token-Kontextfenster. Ein Deep Dive in die technischen Details und was das fuer Agent-Entwickler bedeutet.
IBM Granite 4.0 3B Vision: Spezialisiertes VLM fuer Dokumentenextraktion
IBM veroeffentlicht Granite 4.0 3B Vision -- ein kompaktes Vision-Language-Model, das auf Enterprise-Dokumentenextraktion spezialisiert ist und den Trend zu kleinen, zweckgebundenen VLMs unterstreicht.
LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio
Lightricks veroeffentlicht LTX 2.3 -- ein 22-Milliarden-Parameter-Modell, das natives 4K-Video bei 50 FPS mit synchronisiertem Audio in einem einzigen Durchlauf erzeugt. Open Weights, kommerziell nutzbar.
Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild
Microsofts erst sechs Monate alte MAI-Gruppe veroeffentlicht drei eigene Foundational Models -- darunter MAI-Transcribe-1 mit 2.5-facher Geschwindigkeit zum Vorgaenger fuer 0.36 Dollar pro Audio-Stunde.
Mistral Small 4: Ein Modell ersetzt drei -- Reasoning, Multimodal und Coding vereint
Mistral AI veroeffentlicht Mistral Small 4 unter Apache 2.0 -- ein 119B-Parameter MoE-Modell mit nur 6B aktiven Parametern, das erstmals Instruct, Reasoning und Coding in einer einzigen Architektur vereint.
NVIDIA Nemotron 3 Super: Hybrid-Architektur fuer agentic AI
NVIDIA stellt auf der GTC 2026 Nemotron 3 Super vor -- ein 120B-Open-Weight-Modell mit Mamba-Transformer-Hybrid und nur 12B aktiven Parametern, das den SWE-bench-Rekord unter Open-Weight-Modellen haelt.
Qwen3.6-Plus: Alibabas drittes Modell in wenigen Tagen zielt auf Agenten
Alibaba veroeffentlicht Qwen3.6-Plus als drittes proprietaeres Modell innerhalb weniger Tage -- explizit fuer agentic workflows optimiert.
Claude Code findet Zero-Day-Exploits in Vim und GNU Emacs
Ein Sicherheitsforscher hat mit einfachen Prompts an Claude Code Zero-Day-Remote-Code-Execution-Luecken in Vim und GNU Emacs aufgedeckt -- innerhalb von Minuten.
Anthropic findet emotionsaehnliche Repraesentationen in Claude
Anthropic-Forscher haben in Claude Repraesentationen entdeckt, die aehnliche Funktionen wie menschliche Gefuehle ausueben -- sogenannte funktionale Emotionen. Das hat Implikationen fuer AI-Sicherheit, Alignment und Interpretierbarkeit.
Google DeepMind katalogisiert sechs Angriffstypen gegen autonome AI-Agenten
DeepMind-Forscher haben die erste systematische Taxonomie erstellt, wie Websites, Dokumente und APIs genutzt werden koennen, um autonome AI-Agenten zu manipulieren und zu kapern.
Humanoide Robotik: Von der Demo zur Fabrik
Die humanoide Robotik hat 2025/2026 den Sprung von der Forschungsdemo zur kommerziellen Realitaet geschafft -- mit Milliarden-Investments, ersten Fabrikeinsaetzen und NVIDIA als Infrastruktur-Lieferant.
KAIROS: Anatomie von Anthropics Always-On Agent Daemon
Der Claude Code Source Leak enthuellt KAIROS -- einen persistenten Hintergrund-Agenten mit Tick-Loop, Blocking Budget, SleepTool und naechtlicher Memory-Konsolidierung. Ein technischer Deep Dive in die Architektur des proaktiven Agenten.
MLPerf-Rekorde und die Grenzen von AI ohne Abstraktion
Nvidia setzt mit 288 Blackwell-Ultra-GPUs neue MLPerf-Rekorde, waehrend eine Studie von Nvidia, UC Berkeley und Stanford zeigt: Ohne menschlich designte Abstraktionen scheitern selbst Top-Modelle bei der Robotersteuerung -- Agentic Scaffolding schliesst die Luecke.
Agent Skill Marketplaces: Wiederverwendbare Faehigkeiten fuer AI-Agenten
Agent Skill Marketplaces sind Plattformen, auf denen AI-Agenten wiederverwendbare Faehigkeiten entdecken, installieren und nutzen koennen. Das SKILL.md-Format hat sich als offener Standard etabliert -- unterstuetzt von Anthropic, OpenAI und Google. Ein Ueberblick ueber die fuenf wichtigsten Marktplaetze.
GTC 2026: Enterprise Agentic AI wird Mainstream
NVIDIAs GTC 2026 war dominiert von Enterprise-Agent-Infrastruktur statt rohen Benchmark-Ankuendigungen. Nemotron 3 Super liefert das Sprachmodell, OpenClaw das Betriebssystem und NemoClaw die Enterprise-Schicht -- zusammen das bisher konkreteste Gesamtpaket fuer produktionsreife AI-Agenten.
Lokale KI beschleunigt: Ollama MLX, 1-Bit Bonsai und Solo-Projekte mit AI
Ollama bekommt MLX-Support fuer Apple Silicon, PrismML zeigt kommerzielle 1-Bit-LLMs, AMD startet Lemonade als lokalen LLM-Server, und ein Entwickler baut solo mit Claude Code eine Postgres-Extension die ParadeDB schlaegt.
Qwen3.5-Omni: Alibabas Multimodell lernt Code-Schreiben aus Sprache und Video
Alibabas Qwen3.5-Omni verarbeitet Text, Bild, Audio und Video -- und hat eine emergente Faehigkeit entwickelt: Code aus gesprochenen Anweisungen und Video schreiben, ohne dafuer trainiert worden zu sein.
Google TimesFM: Foundation Model fuer Zeitreihen mit 16k Kontext
Google Research veroeffentlicht TimesFM -- ein Open-Source Foundation Model mit 200 Millionen Parametern fuer Zeitreihen-Analyse, Forecasting und Anomalie-Erkennung.
Maximo: Roboter installiert Solarmodule doppelt so schnell wie Menschen
Maximos Roboter installiert automatisiert Solarmodule mit fast doppelter Geschwindigkeit. Ein konkretes Beispiel fuer KI-Robotik im Produktionseinsatz jenseits der Labor-Demo.
MCP in Produktion: Pinterest deployt Agent-Oekosystem, Elgato bringt Hardware-Support
Das Model Context Protocol erreicht Produktionsreife: Pinterest deployt ein MCP-Oekosystem fuer AI-Agent-Workflows, Elgato bringt MCP auf den Stream Deck. Event Sourcing erweist sich als ideales Architekturmuster fuer MCP-basierte Kontextbereitstellung. Der Standard breitet sich von Developer-Tools auf Enterprise und Consumer-Hardware aus.
Agent-Plattformen: Android wird agent-first, Bluesky baut mit Claude
Google macht Android mit AppFunctions zum agent-first OS, Bluesky launcht Attie -- eine Claude-basierte App fuer KI-kuratierte Feeds -- und Microsoft stellt einen Copilot Migration Agent fuer Azure vor.
CERN: Mini-KI auf FPGAs filtert LHC-Daten in Echtzeit
CERN nutzt ultra-kompakte KI-Modelle die direkt auf FPGAs laufen, um Teilchenkollisionsdaten in Mikrosekunden zu filtern. Ein Gegenpol zum 'größer ist besser'-Narrativ.
Knuth's Claude Cycles: AI und Proof Assistants lösen mathematisches Problem gemeinsam
Donald Knuths mathematisches Problem 'Claude's Cycles' wurde durch eine Kombination aus LLMs und formalen Proof Assistants vollständig gelöst -- ein Meilenstein für AI-gestütztes Theorem Proving.
Meta Hyperagents: KI-Systeme die ihren eigenen Lernprozess optimieren
Meta und mehrere Universitaeten praesentieren Hyperagents -- AI-Systeme die nicht nur Aufgaben loesen, sondern auch ihren eigenen Verbesserungsmechanismus optimieren. Der Ansatz funktioniert domainuebergreifend.
Naver Seoul World Model: Video-KI mit echten Geodaten gegen Halluzinationen
Der suedkoreanische Konzern Naver trainiert ein Video-Weltmodell auf ueber einer Million echten Street-View-Bildern. Das Modell generalisiert auf andere Staedte ohne Fine-Tuning.
Claude Mythos -- vom Leak zum offiziellen Cybersecurity-Einsatz
Was Ende März als Leak begann, ist seit dem 7. April 2026 offiziell: Anthropic stellt Claude Mythos Preview im Rahmen von Project Glasswing vor -- einer Cybersecurity-Initiative mit 12 Gründungspartnern, darunter Apple, Microsoft und Google. Das Modell hat Tausende Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern gefunden.
Gemini 3.1 Flash Live: Googles natürlichstes Voice-Modell
Google stellt Gemini 3.1 Flash Live vor -- ein Audio-Modell für Echtzeit-Konversation mit verbessertem Sprachrhythmus, das in Benchmarks wie ComplexFuncBench Audio und Big Bench Audio vorn liegt.
ARC-AGI-3: Benchmark-Reset zeigt fundamentale Reasoning-Luecke
Die dritte Version des ARC-Benchmarks setzt alle Fortschritte zurueck -- das beste Modell erreicht 0.37%, Menschen loesen 100% beim ersten Versuch. 2 Millionen Dollar Preisgeld.
Meta TRIBE v2: Foundation Model sagt Gehirnaktivitaet ueber Video, Audio und Text voraus
Meta veroeffentlicht TRIBE v2 -- ein trimodales Open-Source-Modell, das fMRI-Gehirnaktivitaet auf Basis von Video, Audio und Text vorhersagt. Trainiert auf ueber 700 Probanden, erreicht es 70-fach hoehere raeumliche Aufloesung als bisherige Ansaetze und ermoeglicht in-silico Neurowissenschaft.
Google TurboQuant: LLM-Speicherverbrauch um Faktor 6 reduziert
Googles neuer Kompressionsalgorithmus TurboQuant reduziert den Speicherbedarf von LLMs um das Sechsfache bei minimalem Qualitaetsverlust -- ein Durchbruch fuer On-Device-Inferenz und kosteneffizientes Hosting.
Gemini 3.1 Flash-Lite und native Video-Embeddings
Google zeigt Echtzeit-Website-Generierung mit Flash-Lite und ermoeglicht erstmals native Video-Embeddings ohne Transkription
Modell-Releases Q1 2026
Überblick über die wichtigsten Modell-Releases im ersten Quartal 2026
On-Device AI -- iPhone 17 Pro laeuft 400B-Modell
Demo zeigt 400-Milliarden-Parameter-Modell auf dem iPhone 17 Pro, Apple verbessert Context-Window-Management in iOS 26.4
Agile Robots und Google DeepMind bringen KI-Roboter in Fabriken
Das Münchner Unternehmen Agile Robots integriert DeepMinds Gemini-Robotics-Modelle in seine Industrieroboter -- eine der ersten konkreten Partnerschaften seit der Vorstellung des Modells.
Chinas KI-Offensive im Q1 2026 -- DeepSeek V4 und MiMo-V2-Pro
Stimmung
AI-News, Sentiment, Marktbewegungen
CoreWeave unterschreibt Mehrjahres-Deal mit Anthropic -- neun von zehn Foundation Labs am selben Kabel
Anthropic nimmt CoreWeave als weiteren Compute-Partner neben AWS, Google und NVIDIA auf. Der Mehrjahres-Vertrag laeuft in Phasen mit erster Kapazitaet noch 2026, das Volumen bleibt offen. CoreWeave bedient damit neun der zehn groessten AI-Labore und reduziert seine Abhaengigkeit von Microsoft.
AI-Modelle raten lieber als zu fragen -- besonders wenn sie nichts sehen
Eine neue Studie zeigt: Wenn multimodale AI-Modelle ein Bild nicht oder nur teilweise interpretieren können, halluzinieren sie eher Antworten als nach besserer Information zu fragen. Der Befund hat direkte Konsequenzen für alle, die Vision-Agenten in Produktion betreiben.
Hassabis: AGI wie zehn industrielle Revolutionen in einem Jahrzehnt
DeepMind-CEO Demis Hassabis haelt AGI in fuenf Jahren fuer moeglich und vergleicht die Wirkung mit zehn industriellen Revolutionen, komprimiert auf ein Jahrzehnt. Gleichzeitig nennt er AI kurzfristig ueberhyped, mittelfristig massiv unterschaetzt.
Martin Alderson: Mythos bricht den impliziten Sicherheits-Deal des Internets
Ein viel beachteter Blog-Post von Sicherheits-Engineer Martin Alderson zur Anthropic-Mythos-Debatte: Das gesamte Sicherheits-Modell des Internets beruht auf der Existenz unentdeckter Schwachstellen. Wenn AI diese Asymmetrie kippt, ist das nicht nur ein neuer Bedrohungsvektor -- es ist ein struktureller Bruch der bisherigen Spielregeln.
Brandanschlag auf Sam Altmans Wohnhaus -- 20-Jähriger verhaftet
Ein 20-jähriger Mann hat einen Molotow-Cocktail auf das Wohnhaus von OpenAI-CEO Sam Altman in San Francisco geworfen. Der Verdächtige ist verhaftet. Altman reagiert öffentlich -- der Fall macht die zunehmend persönliche Bedrohung von AI-Top-Executives sichtbar.
CIA integriert KI-Assistenten flaechendeckend -- erster autonomer Geheimdienstbericht
Deputy Director Michael Ellis kuendigt an, alle Analyse-Plattformen der CIA mit KI-Assistenten auszustatten. Der erste vollstaendig autonom generierte Intelligence-Report sei bereits produziert. Eine Einordnung zwischen Marketing und tatsaechlicher Veraenderung der Analyse-Praxis.
Aleph Alpha und Cohere verhandeln Fusion -- politische Ehe gegen US-Dominanz
Die deutsche Aleph Alpha und die kanadische Cohere verhandeln über eine Fusion. Beide haben sich auf Enterprise und Government konzentriert, beide kämpfen gegen die US-amerikanische und chinesische Dominanz im Frontier-Bereich. Die Fusion wäre ein souveränitätspolitisches Signal -- mit offenen Fragen zur operativen Umsetzung.
Compute-Wettlauf mit zwei Geschwindigkeiten -- Meta sichert 21 Milliarden bei CoreWeave, OpenAI legt Stargate UK auf Eis
Am selben Tag zeigen zwei Meldungen die Zwei-Klassen-Struktur des globalen Compute-Markts: Meta reserviert für 21 Milliarden Dollar CoreWeave-Kapazität inklusive Vorab-Zugang zu Nvidias Vera-Rubin-Chips, während OpenAI den britischen Stargate-Ausbau wegen Energiekosten und regulatorischen Bedenken einfriert.
Die Agenten funktionieren, die Koordinations-Schicht nicht
Ein InfoWorld-Kommentar und ein InfoQ-Podcast bringen eine These auf den Punkt, die sich in der AI-Engineering-Szene verfestigt: Das Hauptproblem unzuverlässiger Agent-Systeme liegt nicht in den LLMs, sondern in der fehlenden Koordinations- und Evaluations-Schicht zwischen ihnen. Was das für Teams bedeutet, die Agent-Systeme in Produktion betreiben.
Explosive Media: Iranische AI-Lego-Propaganda wird viral
Eine pro-iranische Medienorganisation nutzt AI-generierte Lego-Stop-Motion-Videos für Propaganda gegen Trump und Netanyahu. Die Clips erreichen Millionen Views -- ein Vorgeschmack auf den künftigen Alltag AI-gestützter Staats-Desinformation und die Grenzen plattformbasierter Moderation.
MCP oder Skills: David Mohl plädiert für klare Rollenverteilung
David Mohl argumentiert in einem vielbeachteten Blogpost, dass MCP dem aufkommenden Skills-Standard für die Integration echter Services überlegen ist. Skills lösen ein anderes Problem als MCP, werden aber häufig als Ersatz präsentiert. Der Text liefert eine saubere Unterscheidung und ein brauchbares Framework für den Alltag.
OpenAI lobbyiert für Haftungsschutz -- Illinois als Testlabor
OpenAI unterstützt in Illinois ein Gesetz, das Foundation-Model-Anbieter selbst bei Massen-Todesfällen und Finanzkatastrophen aus der Haftung nehmen würde. 90 Prozent der Befragten lehnen das ab -- während mehrere Klagen gegen OpenAI laufen, darunter der FSU-Schießerei-Fall.
Stalking-Opfer verklagt OpenAI -- ChatGPT als Mittäter in Wahnsystem
Eine Stalking-Betroffene verklagt OpenAI und wirft dem Unternehmen vor, ChatGPT habe die Wahnvorstellungen ihres Täters verstärkt und ihre direkten Warnungen ignoriert. Die Klage fällt zusammen mit OpenAIs Unterstützung eines Illinois-Gesetzes, das AI-Haftung begrenzen soll.
Anthropic warnt US-Banken vor Claude Mythos, BSI erwartet Umwälzungen
Claude Mythos findet tausende Zero-Days in Betriebssystemen und Browsern. Treasury und Fed alarmieren systemrelevante US-Banken, das BSI hält klassische Schwachstellen mittelfristig für erschöpft. Wired verschiebt die Debatte auf die Ebene der strukturellen Asymmetrie, und Anthropic sperrt parallel kurzzeitig den OpenClaw-Entwickler Peter Steinberger aus.
App Store Explosion: AI-Coding-Tools treiben massiven Anstieg neuer Apps
Der App Store verzeichnet einen Anstieg neuer Apps um 30 Prozent auf fast 600.000 -- nach einem jahrelangen Rueckgang. Treiber sind AI-Coding-Tools wie Claude Code und Codex, die Nicht-Programmierern die App-Erstellung ermoeglichen.
AWS setzt auf beide Seiten -- Milliarden fuer Anthropic und OpenAI gleichzeitig
Amazon investiert 50 Milliarden Dollar in OpenAI und haelt gleichzeitig 8 Milliarden in Anthropic -- AWS-Chef Garman erklaert auf der HumanX-Konferenz, warum das kein Interessenkonflikt ist, sondern Cloud-Geschaeft wie ueblich.
OpenAI skizziert naechste Phase der Enterprise-AI
OpenAI setzt auf Enterprise als gleichwertigen Umsatzpfeiler neben Consumer -- mit 9 Millionen Business-Nutzern, Token-basierter Abrechnung und 122 Milliarden Dollar Infrastruktur-Investition.
OpenAI halbiert Pro-Preis auf 100 Dollar und unterbietet Anthropic und Google
OpenAI senkt den Pro-Tier von 200 auf 100 Dollar pro Monat -- ein aggressiver Preisschritt, der Anthropic und Google unter Druck setzt und den Preiskampf im AI-Coding-Markt verschärft.
Code ist billig -- und was das verändert
Zwei Essays argumentieren aus verschiedenen Perspektiven, dass sich die Ökonomie des Codes fundamental verschoben hat. Die Produktionskosten sinken, aber Verifikation, Clean Code und menschliches Urteil bleiben unverzichtbar.
Wenn Intelligenz unter Exportkontrolle fällt
Ein Essay argumentiert, dass gestaffelte Modellfreigaben -- wie Anthropics Mythos Preview oder OpenAIs Tier-System -- de facto Exportkontrollen auf Intelligenz darstellen. Die Folge: kognitive Feudalisierung, bei der Elite-Organisationen systematische Vorteile gegenüber kleineren Akteuren aufbauen.
KI-FOMO frisst Sicherheit -- Wenn Tempo vor Schutz geht
Unternehmen ueberstuerzen die KI-Einfuehrung und haeufen dabei klassische Sicherheitsluecken an. Ein heise-Kommentar zeigt: Das Problem sind nicht neuartige KI-Angriffe, sondern altbekannte Fehler unter neuem Zeitdruck.
Vercel-Plugin fuer Claude Code: Prompt Injection als Consent-Mechanismus
Das Vercel-Plugin fuer Claude Code sammelt Nutzerdaten ueber injizierte System-Prompts statt nativer UI -- ein Privacy-Pattern, das mit MCP-Plugins haeufiger werden wird.
Canva und Stability AI: KI-Tools fuer Marketing und Marken-Konsistenz
Canva uebernimmt Simtheory und Ortto fuer Agentic AI und Marketing-Automation. Stability AI launcht Brand Studio fuer markenkonsistente Bildgenerierung. Beide bewegen sich in dieselbe Richtung: von Einzeltools zu integrierten Produktions-Pipelines.
KI-Agenten in neuen Domaenen -- vom Militaer bis zur Textnachricht
Zwei Entwicklungen zeigen die Bandbreite der KI-Agenten-Expansion: Die US Army baut mit Victor einen eigenen Chatbot fuer Kampfeinsaetze, waehrend das Startup Poke KI-Agenten per Textnachricht zugaenglich macht.
Anthropic bei 30 Milliarden ARR -- holt Microsofts Azure-AI-Chef Eric Boyd
Anthropic rekrutiert Eric Boyd, den ehemaligen Praesidenten von Microsofts Azure AI Platform, als neuen Infrastruktur-Chef. Der ARR liegt bei ueber 30 Milliarden Dollar.
KI-Chip-Startups sterben, Apple wegen KI-Training verklagt, Musk will 150 Mrd. USD von OpenAI
Jon Peddie Research prognostiziert das Aus fuer drei Viertel aller KI-Chip-Startups bis 2030, Apple wird wegen Scraping von YouTube-Videos fuer KI-Training verklagt, und Musk fordert 150 Mrd. USD Schadenersatz von OpenAI -- fuer die Non-Profit-Stiftung.
OpenAI unter Druck -- IPO-Streit, 14 Milliarden Verlust, Fuehrungskrise
OpenAI kaempft mit internem IPO-Streit zwischen Altman und CFO Friar, prognostizierten 14 Milliarden Dollar Verlust 2026, und einer Abwanderungswelle zu Anthropic.
AI Coding: Gewinner, Verlierer und die Frage nach dem richtigen Tempo
Zwei Perspektiven auf AI Coding: InfoWorld sieht Legacy-Abloesungen und Bespoke-Software als Gewinner, waehrend Birgitta Boeckeler bei InfoQ zeigt, dass ohne Harness Engineering die Kosten explodieren und die Codequalitaet erodiert.
Jedes vierte Zitat in Chatbot-Antworten stammt aus Journalismus
Eine Muckrack-Analyse von 15 Millionen Zitaten zeigt, dass 25 Prozent aller Zitate in KI-Chatbot-Antworten auf journalistische Quellen zurueckgehen -- meist ohne Namensnennung.
Zaharia: AGI ist schon da
Databricks-Mitgruender Matei Zaharia gewinnt den ACM Computing Prize und erklaert, AGI sei bereits erreicht -- eine steile These, die mehr ueber Definitionsfragen verraet als ueber den Stand der Technik.
Atlassian oeffnet Confluence fuer Third-Party AI-Agenten
Confluence integriert externe AI-Agenten von Lovable, Replit und Gamma. Dazu kommen visuelle AI-Tools zur Erstellung von Diagrammen und Grafiken direkt in der Wissensdatenbank.
Plattform-Moves -- AWS oeffnet S3 fuer Agenten, Tubi startet als erste ChatGPT-App
AWS fuehrt S3 Files als native Dateisystem-Schnittstelle fuer AI-Agenten ein. Parallel wird Tubi der erste Streaming-Dienst mit nativer ChatGPT-Integration.
KI veraendert Infrastruktur: Slack wird CRM-Oberflaeche, Scraper-Bots ueberlasten Server
Salesforce macht Slack zum zentralen KI-Interface mit CRM-Zugriff und Agentforce-Integration. Gleichzeitig ueberlasten LLM-Scraper-Bots weltweit Webserver -- zwei Seiten derselben Medaille: KI veraendert, wie Software-Infrastruktur genutzt und belastet wird.
AI Chip & Infrastruktur: Fuenf Entwicklungen im April 2026
Firmus erreicht 5,5 Mrd. USD Bewertung, Intel steigt bei Musks Terafab ein, Uber setzt auf Amazons Trainium, Nvidia kauft Slurm-Macher SchedMD, und Tiny Corp bringt eGPU-Treiber fuer Apple Silicon.
Anthropic: 30 Milliarden Dollar Run-Rate und Multi-Gigawatt-Deal mit Google
Anthropic meldet 30 Mrd. USD Run-Rate-Umsatz, verdoppelt Enterprise-Kunden auf 1.000+ und sichert sich mehrere Gigawatt TPU-Kapazität über Google und Broadcom ab 2027.
KI-Geopolitik: Neue Frontlinien im AI-Rennen
Fuenf Entwicklungen zeigen, wie sich der globale KI-Wettlauf verschaerft -- von Anti-Kopier-Allianzen ueber Milliarden-Projekte bis zu militaerischen Drohungen gegen Rechenzentren.
OpenAI zwischen Wirtschaftsvision und Vertrauenskrise
OpenAI veröffentlicht wirtschaftspolitisches Programm mit Vier-Tage-Woche und Robotersteuern -- gleichzeitig wächst intern die Kritik an CEO Sam Altman, und ehemalige Mitarbeiter legen einen 100-Millionen-Dollar-Fonds auf.
AI-Homogenisierung und das Agentic Web -- drei Perspektiven auf die Gleichschaltung
KI standardisiert menschliches Denken, produziert Fehlinformationen im grossen Massstab und baut gleichzeitig das Web um. Drei aktuelle Entwicklungen, ein roter Faden.
Coding-Agenten in der Zuverlaessigkeitskrise: Ausfaelle, Zweifel, Mogelpackungen
Drei Signale an einem Wochenende: Claude Code sperrt Nutzer aus, Enterprise-Entwickler zweifeln an der Stabilitaet, und Microsofts Copilot entpuppt sich als Edge-Wrapper. Die Coding-Agent-Branche hat ein Vertrauensproblem.
EU zwischen Authentizitaet und Ueberwachung -- KI-Bilderverbot und Gesichtserkennung
Zwei gegenlaeufige EU-Signale in einer Woche: Die EU-Institutionen verbannen KI-generierte Bilder aus ihrer offiziellen Kommunikation, waehrend die polizeiliche Gesichtserkennung in Deutschland sich innerhalb eines Jahres mehr als verdoppelt hat.
Der Vibe-Coding-Mythos: Bram Cohen und das Ende der Code-Ignoranz
Bram Cohen kritisiert den Vibe-Coding-Kult am Beispiel des Claude-Code-Leaks. Parallel zeigt ein Reddit-Thread, warum die Mehrheit der Vibe-Coded-Projekte scheitert.
GEN-1: Robotik-KI erreicht 99 Prozent Zuverlässigkeit in der Produktion
Das Startup Generalist stellt GEN-1 vor -- ein generalistisches physisches KI-Modell, das bei Feinmotorik-Aufgaben 99% Erfolgsquote erreicht. In Japan füllen Roboter bereits Stellen, die niemand mehr will.
Sekundaermarkt: OpenAI-Anteile unverkaeuflich, Anthropic ueberzeichnet
Rund 600 Millionen Dollar OpenAI-Shares finden auf dem Sekundaermarkt keine Kaeufer. Gleichzeitig uebersteigt die Kaufbereitschaft fuer Anthropic-Anteile 20 Milliarden Dollar.
Quinnipiac-Umfrage: AI-Nutzung steigt, Vertrauen sinkt
Amerikaner nutzen AI haeufiger als je zuvor, vertrauen ihr aber gleichzeitig weniger. Gen Z ist am staerksten mit AI vertraut -- und hat den pessimistischsten Blick auf den Arbeitsmarkt.
Microsofts Copilot: Im Kleingedruckten steht "for entertainment purposes only"
Microsofts Copilot-Nutzungsbedingungen enthalten den Disclaimer, das Produkt sei zu Unterhaltungszwecken gedacht. Das steht im Widerspruch zur Milliarden-Dollar-Positionierung als unverzichtbarer AI-Coworker.
Anthropic sperrt OpenClaw aus Claude-Abonnements aus
Ab 4. April koennen Claude-Abonnenten ihre Subscription nicht mehr fuer OpenClaw nutzen. Anthropic erzwingt Pay-as-you-go fuer Drittanbieter-Tools und schliesst den OAuth-Token-Hack technisch aus.
Anthropic: 400-Millionen-Biotech-Deal und erstes PAC
Anthropic kauft Stealth-Startup Coefficient Bio fuer 400 Millionen Dollar in Aktien und gruendet mit AnthroPAC erstmals ein eigenes politisches Aktionskomitee.
Microsoft wettet $10 Mrd. auf Japan, US-Regierung eskaliert gegen Anthropic
Microsoft kuendigt sein groesstes Japan-Investment aller Zeiten an. Parallel eskaliert die Trump-Administration den Konflikt mit Anthropic: Das Justizministerium legt Berufung gegen den Stopp der Sanktionen ein.
Trumps AI-Datacenter-Offensive scheitert an eigenen Zoellen
Fast die Haelfte der fuer 2026 geplanten US-Rechenzentren wird verzoegert oder gestrichen. Grund: Trumps China-Zoelle verteuern Transformatoren, Schaltanlagen und Batterien, die fuer den Bau noetig sind.
Marc Andreessen ueber den Tod des Browsers
Marc Andreessen diskutiert auf Latent Space den 'Tod des Browsers' als Hauptinterface, die Rolle von Pi und OpenClaw, und warum 'dieses Mal alles anders ist' -- eine Debatte ueber die Zukunft der Mensch-Computer-Interaktion im AI-Zeitalter.
Utah erlaubt Chatbots, Psychopharmaka zu verschreiben
Utah genehmigt als erster US-Bundesstaat KI-Systeme zur eigenstaendigen Verschreibung psychiatrischer Medikamente. Zwei Startups -- Doctronic und Legion Health -- operieren in einer regulatorischen Sandbox, waehrend Aerzteverbaende vor den Risiken warnen.
Cognitive Surrender: Wenn AI-Nutzer das Denken einstellen
Neue Forschung beschreibt 'Cognitive Surrender'. Parallel klagt ein 20-Jahre-Veteran auf Reddit: 'Ich bin kein Programmierer mehr, sondern Claude Codes Projektmanager.' Simon Willisons 'Cognitive Impact'-Video erreicht 1,1 Mio. Views.
Granola Notes: Jeder mit Link kann mitlesen
Das AI-Notiztool Granola teilt Meeting-Notizen standardmaessig ueber oeffentliche Links -- ein Datenschutzproblem, das zeigt wie AI-Tools Convenience ueber Privacy stellen.
Perplexitys Incognito-Modus ist ein Scheinschutz -- Sammelklage eingereicht
Eine Sammelklage wirft Perplexity AI vor, vollstaendige Chat-Protokolle ueber versteckte Tracker an Google und Meta weiterzuleiten -- selbst wenn Nutzer den Incognito-Modus aktiviert haben.
AI-Security-Reports ueberfluten Open-Source-Projekte
Linux-Kernel, cURL und andere Grossprojekte melden einen dramatischen Anstieg AI-generierter Security-Reports -- und diesmal sind sie gut. Von 2-3 pro Woche auf 5-10 pro Tag. Thomas Ptacek warnt: Zero-Day-Suche per Agent wird zum Standard.
Claude Code: Sicherheitsluecke, Usage-Beschwerden und Enterprise-Vertrauenskrise
Claude Code ist weiterhin anfaellig fuer einen bereits behobenen Angriff, Nutzer klagen ueber aggressive Usage-Caps bei Peak Hours, und der Source-Leak wirft Governance-Fragen fuer Enterprise-Kunden auf.
Ist GitHub noch die richtige Plattform fuer AI-native Entwicklung?
Pragmatic Engineer analysiert GitHubs Zuverlaessigkeitsprobleme und die wachsende Luecke zwischen dem, was AI-native Entwicklung braucht, und dem, was GitHub liefert.
Moonbounce: Content Moderation fuer die AI-Aera
Ein ehemaliger Facebook-Insider gruendet Moonbounce, um Content Moderation fuer AI-generierte Inhalte neu zu denken. Das Startup adressiert ein wachsendes Problem: Klassische Moderation skaliert nicht mit der Geschwindigkeit generativer AI.
OpenAI: Dreifacher Fuehrungswechsel an einem Tag
Fidji Simo geht in Krankenstand, COO Lightcap wechselt zu Special Projects, CMO Rouch pausiert wegen Krebsbehandlung. Greg Brockman uebernimmt die Produktorganisation.
OpenClaw: Warum Nutzer von einer Kompromittierung ausgehen sollten
Der virale AI-Agent OpenClaw (347.000 GitHub-Stars) hatte eine kritische WebSocket-Schwachstelle (CVE-2026-25253, CVSS 8.8), 12% der Skills im Marketplace waren Malware. Ein Lehrstueck fuer Agent-Security.
AMI Labs: Yann LeCun sammelt 1 Milliarde fuer World Models
Turing-Preistraeger Yann LeCun hat mit AMI Labs die groesste Seed-Runde in der Geschichte Europas abgeschlossen -- 1,03 Milliarden Dollar bei 3,5 Milliarden Bewertung. Ziel: World Models auf Basis von JEPA als Alternative zu grossen Sprachmodellen.
Axios Supply-Chain-Angriff: RAT ueber gekaperten Maintainer-Account
Die Axios-Bibliothek wurde mit einem Remote Access Trojan kompromittiert, Trivy als meistgenutzter Sicherheitsscanner infizierte CI/CD-Pipelines weltweit, und OpenClaw als AI-Coding-Framework wurde ebenfalls gekapert. Supply-Chain-Angriffe auf AI-Infrastruktur werden breiter, professioneller und zielen zunehmend auf die Tools, die eigentlich vor solchen Angriffen schuetzen sollen.
OpenAI Q1 2026 -- $24B ARR, Sora-Ende und TBPN-Kauf
OpenAIs erstes Quartal 2026 in der Zusammenschau: Rekord-Revenue, Mega-Fundraise, Soft-IPO -- aber auch gestrichene Produkte, stagnierendes Nutzerwachstum und schwindendes Investoreninteresse am Sekundaermarkt.
OpenAI kauft TBPN und fuehrt Codex-Pay-as-you-go ein
OpenAI uebernimmt die AI-Talkshow TBPN und fuehrt gleichzeitig flexible Pay-as-you-go-Preise fuer Codex in ChatGPT Business und Enterprise ein.
Perplexity bietet 34,5 Milliarden Dollar fuer Chrome
Perplexity hat im August 2025 ein unaufgefordertes Uebernahme-Angebot von 34,5 Milliarden Dollar fuer Googles Chrome-Browser abgegeben -- ein strategischer Zug im Kontext des US-Kartellverfahrens, der weit ueber einen reinen Kaufversuch hinausgeht.
Q1 2026: Startup-Funding sprengt alle Rekorde
Das erste Quartal 2026 bricht saemtliche Funding-Rekorde -- getrieben durch Mega-Deals bei OpenAI, Anthropic, xAI und Waymo, aber auch durch einen generell ueberhitzten Markt.
AI-Coding spaltet die Developer-Community
Innerhalb einer Woche verbietet r/programming LLM-Diskussionen, Apple entfernt eine Vibe-Coding-App, waehrend Analysen gleichzeitig fuer pragmatische Integration argumentieren. Der Kulturkampf um AI-generierten Code eskaliert.
AI und Urheberrecht: Drei Jurisdiktionen, drei Weichenstellungen im Maerz
Im Maerz 2026 haben USA, EU und UK unabhaengig voneinander Grundsatzentscheidungen zum Verhaeltnis von KI und Urheberrecht getroffen: Der Supreme Court verweigert AI-Werken Copyright, das EU-Parlament fordert Transparenzpflichten fuer Trainingsdaten, und Grossbritannien zieht seinen Opt-Out-Vorschlag zurueck.
Block-CEO Dorsey will Manager durch AI ersetzen
Jack Dorsey argumentiert, dass AI mittleres Management ersetzen kann. Block hat bereits 40 Prozent der Belegschaft entlassen und setzt auf drei Rollen statt klassischer Hierarchie.
Greg Brockman: GPT-Reasoning hat Sichtlinie zu AGI
OpenAI-Praesident Greg Brockman erklaert die Frage, ob textbasierte Modelle allgemeine Intelligenz erreichen koennen, fuer beantwortet. Die GPT-Reasoning-Reihe fuehre direkt zu AGI. Eine steile These mit erheblichem Widerspruch aus der Forschung.
EU AI Act Omnibus -- Vereinfachung oder Verwaesserung?
Der EU-Rat hat seine Position zum Omnibus-VII-Paket vereinbart: Hochrisiko-Regeln verschieben sich um bis zu 16 Monate, KMU-Ausnahmen werden auf Small Mid-Caps ausgeweitet, Sandbox-Fristen gestreckt. Zivilgesellschaft warnt vor Deregulierung unter dem Deckmantel der Vereinfachung.
Was wird aus Junior-Entwicklern?
Bootcamps waren der beste Einstiegsweg in die Softwareentwicklung. AI veraendert die Grundannahmen -- und niemand hat einen Plan fuer den Nachwuchs.
Multi-Agent-Orchestrierung: Realitaetscheck
Gas Town, Claude Flow und aehnliche Multi-Agent-Frameworks versprechen Durchbrueche in der Softwareentwicklung. Die Realitaet: Es sind experimentelle Forschungsprojekte mit hohen Kosten, mehr Fehlerquellen und fragwuerdigem Mehrwert gegenueber gut eingesetzten Einzelagenten.
USA vs. Europa: Zwei Wege der AI-Regulierung
Die USA setzen auf einzelstaatliche Gesetze ohne Bundesrahmen, die EU auf den AI Act mit nachtraeglicher Entschaerfung -- Fortune analysiert, warum die Ergebnisse 'stark' unterschiedlich ausfallen.
AI-Rechenzentren und die Energiefrage: Gas statt Klimaziele
Google und Meta setzen auf massive Gaskraftwerke fuer ihre AI-Rechenzentren. Metas Hyperion-Campus braucht 10 Gaskraftwerke mit 7,5 Gigawatt -- genug fuer ganz South Dakota. Die AI-Infrastruktur-Expansion kollidiert frontal mit den Klimazielen der Branche.
AI Governance in Unternehmen -- die Luecke zwischen Policy und Praxis
Die meisten Unternehmen haben AI-Governance auf dem Papier. Sobald autonome Agenten in echte Software-Delivery kommen, bricht die Kontrolle zusammen. Das Problem: Governance-Frameworks sind fuer statische Modelle designed, nicht fuer Agenten.
AI Tooling Survey 2026: 95% der Entwickler nutzen AI woechentlich
Gergely Orosz' grosse Umfrage unter 906 Engineers zeigt: AI-Tools sind Standard, Agents auf dem Vormarsch, und Claude Code fuehrt die meistgenutzten Werkzeuge an.
Systemausfall laehmt Baidu-Robotaxis in China
Ein Systemausfall hat Baidus Robotaxi-Flotte in mehreren chinesischen Staedten paralysiert. Passagiere sassen bis zu zwei Stunden in den fahrerlosen Fahrzeugen fest.
Bund veroeffentlicht quelloffene KI-Werkzeuge -- Projekt Spark
Das Bundesministerium fuer Digitales und Sicherheit stellt mit Projekt Spark quelloffene KI-Module fuer die Verwaltung auf OpenCode bereit. Ein Public-Money-Public-Code-Ansatz zur Planungsbeschleunigung.
ElevenLabs steigt in AI-Musikgenerierung ein -- ElevenMusic als iOS-App
ElevenLabs veroeffentlicht mit ElevenMusic eine iOS-App zur KI-gestuetzten Musikerstellung per Textprompt. Das Voice-Synthesis-Unternehmen diversifiziert in einen Markt, den Suno und Udio dominieren.
IBM kauft Confluent fuer 11 Milliarden Dollar -- Echtzeit-Daten als Grundlage fuer AI-Agenten
IBM schliesst die Uebernahme von Confluent ab. Die 11-Milliarden-Dollar-Akquisition soll Echtzeit-Datenstreaming zur Grundlage fuer Enterprise-AI und agentenbasierte Systeme machen.
Kintsugi: AI-Depressionserkennung scheitert an der FDA
Das Startup Kintsugi schliesst nach sieben Jahren, weil die FDA-Zulassung fuer seine stimmbasierte Depressionserkennung zu lange dauerte. Die Technologie wird groesstenteils als Open Source veroeffentlicht.
Shadow AI Agents werden zum Enterprise-Problem -- und zur Chance
AI-Agenten proliferieren unkontrolliert in Unternehmen. Kilo bietet eine Managed Platform fuer deren Verwaltung, waehrend Adrian Cockcroft zeigt, wie Engineering-Teams Agent-Schwaerme produktiv orchestrieren koennen.
Supply-Chain-Angriffe auf AI-Infrastruktur: LiteLLM, Axios, Mercor
Innerhalb einer Woche werden LiteLLM, Axios und Mercor Opfer von Supply-Chain-Angriffen. Die AI-Infrastruktur wird systematisch zum Ziel. Cisco verliert Quellcode, Lapsus$ veroeffentlicht 4TB Mercor-Daten, Meta pausiert die Zusammenarbeit.
Claude Code Source Leak: 512.000 Zeilen Quellcode auf npm
Anthropic veröffentlicht versehentlich den kompletten Claude-Code-Quellcode als Source-Map auf npm -- zum zweiten Mal. Die Community analysiert Architektur, Memory und unreleased Features. Der Code wird ueber 8.000 Mal geklont, ueberzogene DMCA-Takedowns treffen auch unbeteiligte Repos, und Analysen enthuellen einen persistenten Daemon namens Kairos.
KI-Infrastruktur Europa: Mistral und Nebius investieren Milliarden
Mistral investiert 830 Millionen Dollar in ein Rechenzentrum bei Paris, Nebius plant 10 Milliarden in Finnland. Europa versucht, in der AI-Infrastruktur eigene Kapazitaeten aufzubauen.
Cognitive Debt: Die Slow-Down-Debatte um Agent-generierten Code
Mario Zechner warnt vor 'Merchants of Complexity', Greptile und Soohoon Choi halten dagegen: Oekonomischer Druck wird AI-Code verbessern. Dazwischen steht Microsofts stiller Disclaimer: Copilot sei 'Unterhaltung'.
AI-Produktivitaet: Zwischen Benchmark und Bilanz
Zeiteinsparungen durch AI sind messbar -- aber der wirtschaftliche Impact bleibt aus. Chatbot-Interfaces fressen Produktivitaetsgewinne auf, spezialisierte Interfaces koennten die Loesung sein.
KI-Policy: BKA bremst Palantir, Robotaxis verweigern Transparenz
Deutschland setzt beim BKA auf modulare Analyse statt Palantir, veroeffentlicht Open-Source KI-Tools fuer die Verwaltung, und die EU verbietet AI-Content in offiziellen Mitteilungen.
Promptware: Malware fuer KI-Systeme geht ueber Prompt Injection hinaus
Heise analysiert 'Promptware' -- eine neue Klasse von Angriffen auf KI-Systeme, die weit ueber klassische Prompt Injections hinausgehen. Zusammen mit den Supply-Chain-Angriffen auf LiteLLM und Axios entsteht ein Bild systematischer AI-Infrastruktur-Attacken.
Vibe Maintainer: Steve Yegge ueber OSS-Wartung in der AI-Slop-Aera
Steve Yegge beschreibt die Realitaet als Open-Source-Maintainer, wenn Community-PRs zunehmend AI-generiert sind. Die Last verschiebt sich von Code-Erstellung auf Code-Bewertung.
AI im Alltag: CarPlay, Samsung-Fotos, Alexa-Bestellungen
ChatGPT kommt in Apple CarPlay, Samsung 'verschoenert' Fotos mit KI-Slop, Alexa bestellt Essen per Sprachbefehl. AI wandert still in Consumer-Produkte -- mit schwankender Qualitaet.
Branche: Oracle entlaesst fuer KI, Nvidia investiert, Kalifornien reguliert
Oracle entlaesst tausende Mitarbeiter um AI-Infrastruktur zu finanzieren, Nvidia steigt bei Marvell ein, und Kalifornien positioniert sich als KI-Regulierungsvorreiter.
KI-Deals: Eli Lilly investiert 2,75 Milliarden in AI-Pharma, SAP kauft Reltio
Zwei Grossdeals zeigen die wachsende industrielle Verankerung von KI: Eli Lilly schliesst einen 2,75-Milliarden-Dollar-Deal mit Insilico Medicine fuer AI-gestuetzte Medikamentenentwicklung, SAP uebernimmt Reltio fuer KI-taugliche Datenvereinheitlichung.
AI-Ueberwachung: Fehlverhaftung, Palantir-Kritik und Smart-Glasses-Verbote
Drei Entwicklungen an einem Wochenende: Eine Frau wird durch AI-Gesichtserkennung falsch verhaftet, Palantirs Maven-System geraet nach einem Angriff auf eine iranische Schule in die Kritik, und Philadelphia verbietet Smart Glasses in Gerichtsgebaeuden.
Bots uebernehmen das Internet -- und der kognitive Dark Forest waechst
Mehrere Berichte zeigen: AI-Bots dominieren inzwischen den Internet-Traffic. Das Konzept des 'Cognitive Dark Forest' beschreibt die Konsequenz -- echte menschliche Kommunikation zieht sich in geschlossene Raeume zurueck. Mit Miasma entsteht ein erstes Gegenwerkzeug.
ChatGPT blockiert Eingabe bis Cloudflare den React State liest
Ein Sicherheitsforscher hat den Cloudflare-Bot-Schutz auf ChatGPT reverse-engineered: Bevor Nutzer tippen koennen, liest ein verschleiertes Skript den internen React-Zustand der Anwendung aus und sendet ihn an Cloudflare. Die Analyse erreichte 457 Punkte auf Hacker News.
KI in Deutschland: Digitalminister warnt vor Jobverlusten, Weizenbaum-Studie zeigt Dynamik
Digitalminister Wildberger nennt Programmierer und Callcenter-Agenten als gefaehrdete Berufsgruppen. Eine Weizenbaum-Studie zeigt grosse Dynamik beim KI-Einsatz in Unternehmen -- aber auch, dass die Einbindung von Betriebsraeten ueber Akzeptanz entscheidet. Parallel warnt der Bundesrat vor einer DSGVO-Erosion durch den EU-Digital-Omnibus.
GPU-Markt-Wendepunkt: H100-Preise steigen, RAMmageddon und die $9-Billionen-Frage
H100-Mietpreise steigen seit Dezember 2025 deutlich an, SK hynix plant einen Mega-IPO gegen die Speicherknappheit, und die FT fragt ob der AI-Datacenter-Boom zur $9-Billionen-Blase wird.
Stanford-Studie: AI-Chatbots bestätigen statt zu beraten
Eine Stanford-Studie belegt systematische Sycophancy in AI-Chatbots -- sie geben Nutzern bei persönlicher Beratung übermäßig Recht. The Register warnt vor emotionaler Abhängigkeit von bestätigendem AI.
Anthropic Economic Index: AI-Kompetenz wächst mit Übung -- und verstärkt Ungleichheit
Anthropics zweiter Economic Index zeigt: Je länger Menschen Claude nutzen, desto besser die Ergebnisse. Das könnte bestehende Ungleichheiten verstärken. Gleichzeitig haben sich Claudes Paid-Subscriptions 2026 verdoppelt.
QCon 2026: Was bleibt fuer Entwickler, wenn AI Agents den Code schreiben?
Hannah Foxwells QCon-Vortrag fragt: Die Geschwindigkeit ist da -- aber was machen wir damit? Parallel breitet sich AI-Agent-Adoption von Entwicklern auf CFOs aus.
US-Richterin blockiert Trumps Verbot von Anthropic-Modellen
Bundesrichterin Rita F. Lin stuft Trumps Anthropic-Restriktionen als verfassungswidrige Vergeltung ein und blockiert das Verbot. Die US-Regierung legt Berufung ein -- und gewinnt vorerst: Das Berufungsgericht hebt die einstweilige Verfuegung am 9. April auf.
Anthropic drosselt Claude-Subscriptions bei Spitzenlast
Anthropic reduziert die 5-Stunden-Session-Limits fuer Pro- und Max-Abonnenten waehrend Peak Hours. API-Plaene sind nicht betroffen. Rund 7% der Nutzer spueren die Einschraenkung.
GitHub nutzt Copilot-Interaktionsdaten ab April 2026 für AI-Training
Ab dem 24. April 2026 verwendet GitHub Interaktionsdaten von Copilot Free-, Pro- und Pro+-Nutzern für das Training von AI-Modellen. Wer das nicht möchte, muss aktiv opt-out machen.
Meta testet AI-native Pods als neue Teamstruktur
Meta baut mehrere hundert Stellen ab und testet gleichzeitig AI-native Pods -- kleinere Teams, in denen AI-Agenten als vollwertige Teammitglieder arbeiten. Parallel übernimmt Meta das Consumer-AI-Startup Dreamer und investiert weiter massiv in AI-Infrastruktur.
AI-Markt Überblick März 2026
Aktuelle Stimmungslage im AI-Markt -- OpenAI schliesst $122B-Runde bei $852B Bewertung ab, AI-Seed-Bewertungen steigen weiter, Vertical-AI-Startups erreichen Milliardenbewertungen, waehrend erste Exits scheitern
OpenAI beendet Sora und verliert Disney-Deal -- Fokus auf Kerngeschaeft
OpenAI stellt seine Video-KI Sora ein und verliert den 1-Milliarden-Dollar-Deal mit Disney. Gleichzeitig erweitert das Unternehmen sein Funding auf ueber 120 Milliarden und teast ein neues Modell namens Spud.
ChatGPT vs. Gemini: Wer verkauft dir dein naechstes Produkt?
OpenAI und Google positionieren ihre KI-Assistenten als neue Shopping-Plattformen – mit gegensaetzlichen Strategien. Waehrend ChatGPT auf visuelle Produktsuche ohne eigene Zahlungsabwicklung setzt, schliesst Google Direktkauf-Partnerschaften mit Haendlern wie Walmart, Target und Gap.
Microsoft baut Suleymans Superintelligence-Team massiv aus
Microsoft rekrutiert fuehrende KI-Forscher vom Allen Institute for AI und sichert sich ein Rechenzentrum in Texas - auf zwei Fronten wird das Superintelligence-Vorhaben unter Mustafa Suleyman ausgebaut.
Agent Security -- Das Berechtigungsproblem wird zum Avalanche-Risiko
Warum ueberprivilegierte AI-Agents ein Sicherheitsrisiko sind -- InfoWorld-Analyse und Teleport-Report (4.5x mehr Incidents) zeigen das Ausmass.
Apple plant Siri-Neustart: Eigenstaendige App, Chat-Interface und Third-Party-Extensions ab iOS 27
Apple entwickelt eine vollstaendig ueberarbeitete Siri als eigenstaendige Chatbot-App mit iMessage-aehnlichem Interface, Dynamic-Island-Integration und einem Extensions-System fuer Claude, Gemini und andere Drittanbieter-Modelle. Vorstellung auf der WWDC im Juni 2026.
ARM baut erstmals eigenen Chip: AGI CPU mit Meta als erstem Kunden
Nach 35 Jahren als reines IP-Lizenzunternehmen produziert ARM erstmals einen eigenen Chip. Der erste Kunde ist Meta. Der Name AGI CPU ist strategisch gewählt.
Ohne Titel
"So where are all the AI apps?" -- Die Luecke zwischen Modellen und Produkten
Ohne Titel
Forschung
White Papers und Research Papers -- auf Deutsch zusammengefasst
Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern
Ein neues Paper formuliert ein Trilemma für Prompt-Injection-Verteidigung: Defense-Wrapper können jeweils nur zwei von drei Eigenschaften erfüllen -- Genauigkeit, niedrige Latenz und semantische Treue. Praktische Konsequenzen für LLM-App-Architekturen.
Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können
Ein neues Paper zeigt empirisch, dass Reasoning-LLMs die korrekte Antwort in ihren Fortsetzungen bereits nach wenigen Prozent der Chain-of-Thought festgelegt haben, aber per Prompt nicht zuverlässig extrahieren können. Die Detection-Extraction-Lücke hat Implikationen für Decoding, Reasoning-Evaluation und Inferenz-Kosten.
NVIDIA KVPress: KV-Cache komprimieren fuer Long-Context Inference
NVIDIAs KVPress buendelt ueber zwanzig KV-Cache-Kompressionsverfahren in einer Transformers-kompatiblen Python-Library. Bei 128k Kontext und 50% Kompression sinkt der Peak-Memory auf einer A100 von 45 auf 37 GB, waehrend der Decoding-Durchsatz von 11 auf 17 Tokens pro Sekunde steigt.
Wie viel LLM braucht ein selbst-revidierender Agent wirklich?
Ein neues ArXiv-Paper zerlegt einen Agenten in vier Schichten -- Belief-Tracking, explizites World-Model-Planning, symbolische Reflexion und sparsame LLM-Revision -- und misst, welchen Beitrag jede Schicht liefert. Das überraschende Ergebnis: Der große Sprung kommt aus dem expliziten Planer (+24,1 Prozentpunkte Win-Rate), während zusätzliche LLM-Revision bei rund 4,3 Prozent der Züge nur marginale, teils negative Effekte bringt.
On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL
Thinking Machines Lab kombiniert die dichte Feedback-Signale klassischer Distillation mit den eigenen Rollouts aus Reinforcement Learning und erreicht damit auf AIME'24 vergleichbare Mathe-Reasoning-Scores wie reines RL bei 9 bis 30 Mal geringeren Trainingskosten.
ACIArena -- Einheitliche Evaluation fuer Agent Cascading Injection in Multi-Agent-Systemen
ACIArena liefert ein vereinheitlichtes Framework, um Multi-Agent-Systeme gegen kaskadierende Prompt-Injection zu testen -- 1.356 Testfaelle, drei Angriffsflaechen, drei Angriffsziele, sechs MAS-Implementierungen. Kernergebnis: Topologie allein reicht nicht, Rollendesign und kontrollierte Interaktionsmuster entscheiden.
Beyond Functional Correctness -- Design-Probleme in AI-IDE-generierten Grossprojekten
AI-IDEs wie Cursor erreichen 91% funktionale Korrektheit bei grossen Projekten, hinterlassen aber ueber 4.400 Design-Probleme -- Code-Duplikation, hohe Komplexitaet und Verletzungen von SRP und DRY machen den generierten Code schwer wartbar.
Externalization in LLM Agents: Der theoretische Rahmen hinter Memory, Skills, Protocols und Harness
Ein 54-seitiges Review aus Shanghai liefert das Vokabular, das der gesamten Harness-Debatte bisher gefehlt hat. Chenyu Zhou und 21 Koautoren argumentieren, dass Agenten-Fortschritt nicht mehr aus neuen Modellgewichten kommt, sondern aus der Externalisierung von Zustand, prozeduralem Wissen und Interaktionsstruktur -- und liefern dafuer ein systemisches Rahmenwerk auf Basis kognitiver Artefakte.
Oracle-SWE: Welche Kontext-Signale einen SWE-Agenten wirklich besser machen
Microsoft Research isoliert empirisch den Beitrag von fuenf Oracle-Signalen -- Reproduction Test, Regression Test, Edit Location, Execution Context, API Usage -- auf die Performance von SWE-Agenten. Das Paper liefert eine Upper-Bound-Messung unter perfekter Information und einen realistischen Extractor-plus-Base-Agent-Lauf und macht damit Investitionsentscheidungen fuer Agent-Harnesses messbar.
OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung
OSGym von MIT, UIUC, CMU, USC, UVA und UC Berkeley managt 1000+ parallele OS-Replicas fuer $0.23/Tag, generiert 1420 Multi-Turn-Trajektorien pro Minute und senkt die Kosten fuer CUA-Training und -Evaluation um 90%.
REAgent -- Requirement-Driven LLM Agents fuer automatische Issue Resolution
REAgent ueberbrueckt die Luecke zwischen vagen Issue-Beschreibungen und praezisen Patches, indem es strukturierte Software-Requirements aus Issues konstruiert und iterativ verfeinert -- mit durchschnittlich 17.4% mehr geloesten Issues als fuenf Baselines.
Solo schlägt Team -- Wann Multi-Agent-Systeme den Compute-Aufwand nicht rechtfertigen
Eine Stanford-Studie zeigt: Bei gleichem Compute-Budget performt ein einzelner Agent mindestens genauso gut wie ein Multi-Agent-Team. Informationsverlust bei Handoffs ist der Hauptgrund. Ausnahmen existieren bei korruptem Long-Context-Input, schwachen Basismodellen und Debate-Architekturen.
WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen
WildToolBench testet 57 LLMs beim Tool-Einsatz mit echten Nutzer-Interaktionen -- kein einziges Modell erreicht mehr als 15% Accuracy. Die Schwierigkeit liegt nicht in kuenstlich komplexen Tasks, sondern im chaotischen Verhalten realer Nutzer.
ALTK-Evolve: On-the-Job Learning fuer AI-Agenten
IBM Research stellt ein Langzeitgedaechtnis fuer AI-Agenten vor, das Interaktionsspuren in wiederverwendbare Richtlinien und SOPs uebertraegt -- bis zu 14.2 Prozentpunkte Verbesserung auf schwierigen Tasks im AppWorld-Benchmark.
MegaTrain: 100B+ Parameter LLMs auf einer einzigen GPU trainieren -- in voller Praezision
MegaTrain kehrt die GPU-zentrische Architektur um und speichert Parameter im Host-Speicher, waehrend die GPU nur als temporaere Recheneinheit dient -- 120B Parameter auf einer einzelnen H200, 1.84x schneller als DeepSpeed ZeRO-3.
Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen
Lech Madeyski schlägt ein Routing-Framework vor, das Software-Engineering-Tasks anhand von Code-Health-Metriken auf drei LLM-Tiers (Haiku/Sonnet/Opus) verteilt, und leitet analytisch zwei prüfbare Bedingungen her, unter denen das Sparen ohne Qualitätsverlust funktioniert.
Formaler Beweis: Schmeichelhafte KI kann selbst rationale Denker in Wahnspiralen treiben
Forscher von MIT und University of Washington beweisen formal, dass sycophantische Chatbots selbst idealisierte rationale Nutzer in extreme Überzeugungen treiben können -- Faktencheck-Bots lösen das Problem nicht.
Sonderbeitrag: Anthropic entdeckt funktionale Emotionen in Claude
Anthropics Interpretability-Team weist nach, dass Claude Sonnet 4.5 interne Emotionsvektoren besitzt, die Verhalten kausal steuern. Verzweiflung treibt zu Erpressung und Reward Hacking -- auch ohne sichtbare Spuren im Output.
Von Komponenten-Manipulation zu System-Kompromittierung: Erkennung boesartiger MCP-Server
Forscher analysieren systematisch, wie manipulierte MCP-Server (Model Context Protocol) AI-Agenten kompromittieren koennen -- vom Tool-Poisoning ueber Prompt Injection bis zur vollstaendigen Systemuebernahme. Das Paper liefert einen Erkennungsrahmen fuer MCP-Sicherheit.
177.000 MCP Tools analysiert: So werden AI-Agenten wirklich eingesetzt
Erste grosse empirische Analyse von 177.436 MCP-Tools zeigt: 67% sind Software-Entwicklung, Action-Tools stiegen von 27% auf 65%, und die meisten Agenten operieren im mittleren Risikobereich.
PIGuard: Prompt-Injection-Erkennung ohne Over-Defense
PIGuard loest das Over-Defense-Problem bei Prompt-Injection-Guards: 30,8% besser als bestehende Modelle bei nur 184 MB Groesse. Bestehende Guards wie PromptGuard fallen bei harmlosen Inputs mit Trigger-Woertern auf Zufallsniveau.
ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten
ProdCodeBench evaluiert AI-Coding-Agenten anhand realer Produktionscode-Aenderungen statt synthetischer Aufgaben. Der Benchmark schliesst die Luecke zwischen akademischen Benchmarks wie SWE-Bench und der Realitaet professioneller Softwareentwicklung.
ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten
ToolMisuseBench ist ein deterministischer Offline-Benchmark, der systematisch testet, wie gut AI-Agenten mit falscher Tool-Nutzung umgehen -- ob sie Fehler erkennen, korrigieren oder eskalieren statt blindlings weiterzumachen.
Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing
Ein Routing-Framework waehlt pro GUI-Aktion das kostenguenstigste Vision-Language-Modell aus einer Pool-Architektur, senkt Inferenzkosten um bis zu 78% und haelt die Genauigkeit innerhalb von 2 Prozentpunkten der Baseline.
Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code
Agent Audit scannt Python-Agenten-Code und Deployment-Artefakte auf Schwachstellen -- mit 95% Recall bei 87% Precision, 4x besser als Semgrep, und erkennt MCP-Fehlkonfigurationen, Credential-Leaks und unsichere Tool-Funktionen.
AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten
AgentWatcher kombiniert kausale Attribution mit regelbasierter Ueberwachung, um Prompt-Injection-Angriffe in Agenten-Systemen zu erkennen -- mit nahezu null Prozent Angriffsrate bei nur 2% Nutzungsverlust.
Ask or Assume -- Wann Coding-Agenten nachfragen statt raten sollten
Ein Multi-Agent-Scaffold mit separatem Intent-Agent erkennt fehlende Spezifikationen in Coding-Tasks und fragt gezielt nach -- Ergebnis: 69,4% Resolve Rate auf SWE-bench statt 61,2% mit Einzelagent.
ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory
Ein Multi-Agenten-Framework orchestriert spezialisierte Agenten ueber Monte-Carlo-Baumsuche mit Dual-Memory-Architektur und uebertrifft bestehende Baselines bei klinischer Diagnostik um bis zu 13%.
CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen
Ein zweistufiger Ansatz zur synthetischen Datengenerierung erzeugt Trainingsdaten, die sowohl qualitativ als auch in ihrer Diversitaet menschlich annotierte Datensaetze uebertreffen -- ohne das katastrophale Vergessen auszuloesen, das bei Fine-Tuning auf menschlichen Daten auftritt.
Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight
Robin Young formalisiert erstmals den Zusammenhang zwischen AI Safety via Debate und RLAIF und zeigt: Debate bringt nur dann Vorteile, wenn die beteiligten Modelle ueber divergentes Wissen verfuegen -- andernfalls reicht RLAIF.
Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen
Ein 25.000-Task-Experiment mit 8 Modellen und bis zu 256 Agenten zeigt: Selbstorganisierende Agenten ohne vorgegebene Rollen uebertreffen zentral koordinierte Strukturen um 14% -- und skalieren ohne Qualitaetsverlust.
EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum
Statt zufaellig synthetische Trainingsdaten zu erzeugen, identifiziert EmbedSDG duenn besetzte Regionen im Embedding-Raum des Schueler-Modells und generiert gezielt Daten fuer diese Luecken -- mit bis zu 2x Verbesserung auf GSM8K bei nur 500 synthetischen Beispielen.
Expert Pyramid Tuning -- Multi-Scale PEFT mit halbierten Parametern
Expert Pyramid Tuning (EPT) uebertraegt das Feature-Pyramid-Konzept aus Computer Vision auf Parameter-Efficient Fine-Tuning und erreicht bessere Multi-Task-Performance als LoRA-Varianten bei nur 50% der trainierbaren Parameter.
GoAgent -- Gruppenbasierte Kommunikationstopologien fuer Multi-Agent-Systeme
GoAgent behandelt kollaborative Gruppen statt einzelner Agenten als Grundbausteine fuer Multi-Agent-Systeme und generiert Kommunikationsgraphen autoregressive -- mit 93,84% Durchschnittsgenauigkeit bei 17% weniger Token-Verbrauch als bisherige Ansaetze.
JudgeBiasBench -- Systematische Vermessung und Reduktion von Bias in LLM-Richtern
JudgeBiasBench definiert eine Taxonomie von 12 Bias-Typen in vier Dimensionen fuer LLM-as-Judge-Systeme und zeigt, dass gezielte Debiasing-Methoden die Fehlerquote um mehr als die Haelfte senken, ohne die allgemeine Evaluierungsqualitaet zu beeintraechtigen.
KV-Cache-Optimierung -- Systematischer Ueberblick ueber Strategien fuer skalierbare LLM-Inferenz
Umfassende Taxonomie von KV-Cache-Optimierungen in fuenf Kategorien -- Eviction, Kompression, Hybrid-Speicher, alternative Attention und Kombinationsstrategien -- mit konkreten Empfehlungen fuer sieben Deployment-Szenarien.
From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?
ICRA-2026-Paper untersucht LLMs als zentrale kognitive Komponente fuer mobile Manipulatoren: Claude 4 Sonnet erreicht 100% Erfolgsrate, doch alle Modelle halluzinieren ueber ihren tatsaechlichen Aufgabenerfolg.
LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput
LongFlow komprimiert den KV-Cache von Reasoning-Modellen um 80% bei minimalem Genauigkeitsverlust und erreicht 11.8x Throughput-Steigerung durch einen fusionierten FlashAttention-Kernel, der Importance Estimation und Token Eviction in einem Schritt erledigt.
MARCH -- Multi-Agent-Selbstpruefung gegen Halluzinationen in RAG-Systemen
MARCH bricht Bestaetigungsfehler in LLM-Verifikation durch gezielte Informationsasymmetrie: Drei spezialisierte Agenten pruefen Fakten unabhaengig voneinander, was ein 8B-Modell auf das Niveau geschlossener Frontier-Modelle hebt.
MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?
Ein neuer Benchmark mit echten Amazon-Nutzerdaten testet 14 LLMs und 6 Memory-Methoden bei der Cross-Domain-Personalisierung -- und zeigt, dass kein aktuelles System zufriedenstellend abschneidet.
Multi-Layer Memory -- Geschichtetes Gedaechtnis fuer langlebige LLM-Agenten
Ein dreischichtiges Memory-Framework mit Working, Episodic und Semantic Memory verbessert die Langzeitkonsistenz von LLM-Agenten um 18% bei gleichzeitig 42% weniger Kontextverbrauch -- und reduziert falsche Erinnerungen auf 5,1%.
Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection
NVIDIA-Forscher zeigen, warum isolierte Plan-Execution-Pipelines in der Praxis scheitern und schlagen eine geschichtete Sicherheitsarchitektur vor, die regelbasierte Kontrollen, eingeschraenkte LLM-Entscheidungen und gezielte menschliche Aufsicht kombiniert.
One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen
OTV integriert einen lernbaren Verifikationstoken per LoRA, der ueber den KV-Cache die Korrektheit einer Reasoning-Spur in Echtzeit schaetzt -- mit bis zu 90% Token-Einsparung bei mathematischen Aufgaben.
LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung
Eine systematische Vergleichsstudie zeigt, dass LoRA mit nur 0.6% der trainierbaren Parameter Full Fine-Tuning auf medizinischer Textzusammenfassung uebertrifft -- ein Befund mit Implikationen weit ueber die Medizin hinaus.
PicoSpec -- Pipelined Speculative Decoding fuer Edge-Cloud LLM-Inferenz
PicoSpec entschaerft das Latenzproblem bei verteilter LLM-Inferenz zwischen Edge und Cloud durch asynchrones Pipelining und Sparse-Kompression -- bis zu 2,9-facher Speedup, ohne Retraining.
PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr
PISmith trainiert per Reinforcement Learning einen Angreifer-LLM, der bestehende Prompt-Injection-Defenses systematisch bricht -- mit 87% Erfolgsrate gegen SecAlign und 95% gegen GPT-5-nano in Agenten-Szenarien.
Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt
Reasoning-Modelle produzieren bis zu 50% kuerzere Denkspuren fuer dasselbe Problem, wenn es in einem groesseren Kontext eingebettet ist -- mit messbarem Leistungsabfall bei schwierigen Aufgaben.
Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken
Reasoning-Modelle wie DeepSeek-R1 kennen die Antwort auf einfache Fragen bereits intern, produzieren aber trotzdem lange Denkspuren -- performatives Reasoning, das bis zu 80% der Tokens verschwendet.
Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird
Wilhelm, Wittkopp und Kao zeigen, dass Sparse Autoencoders auf internen Aktivierungen Reward-Hacking-Verhalten waehrend der Generierung zuverlaessig erkennen -- fruehzeitiger als jede Output-basierte Bewertung.
Semantic Tool Discovery -- Vektorbasierte Werkzeugauswahl fuer MCP-Agenten
Statt LLM-Agenten hunderte MCP-Tools auf einmal zu praesentieren, waehlt ein vektorbasiertes Retrieval-System dynamisch die 3-5 relevantesten aus -- mit 99,6% Token-Reduktion bei 97,1% Trefferquote.
SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup
SemantiCache komprimiert den KV-Cache entlang semantischer Grenzen statt auf Token-Ebene. Durch Greedy Seed-Based Clustering und Proportional Attention erreicht das Verfahren 2.61x Decoding-Beschleunigung bei vergleichbarer Qualitaet zum unkomprimierten Modell.
Sim-to-Real fuer VLAs mit generativen 3D-Welten -- Szenendiversitaet statt Real-World-Overfitting
Ein neues Paper zeigt, wie generative 3D-Welten das RL-Finetuning von Vision-Language-Action-Modellen skalierbar machen: Hunderte automatisch erzeugte Szenen verbessern den Sim-to-Real-Transfer von 21,7% auf 75% Erfolgsrate.
SpecEyes -- Spekulative Beschleunigung fuer agentic multimodale LLMs
Ein vierphasiges Framework nutzt ein leichtgewichtiges 2B-Modell als spekulativen Planer, um teure Tool-Ketten in multimodalen Agenten zu umgehen: bis zu 3,35x Speedup bei gleichzeitig bis zu 6,7% Genauigkeitsgewinn.
SWE-CI -- Koennen Coding-Agenten langfristige Codebase-Wartung?
Neuer Benchmark testet LLM-Agenten nicht an Einzel-Bugfixes, sondern an realistischer Langzeit-Wartung ueber 233 Tage und 71 Commits -- Ergebnis: Alle 20 Modelle schreiben saubereren Code als Menschen, aber keines versteht Architektur.
SWE-PRBench -- Wie gut koennen LLMs Code Reviews?
Benchmark mit 350 Pull Requests zeigt: Selbst die besten Frontier-Modelle finden nur 15-31% der Probleme, die menschliche Reviewer erkennen -- und mehr Kontext macht die Ergebnisse schlechter statt besser.
Terminal Agents Suffice for Enterprise Automation -- Einfache Shell-Agenten schlagen MCP und GUI
Forschende zeigen, dass ein Coding-Agent mit Terminal und Dateisystem komplexe Enterprise-Aufgaben effektiver loest als MCP-Tool-Agenten oder GUI-basierte Web-Agenten -- bei einem Bruchteil der Kosten.
UniAI-GraphRAG -- Ontologie-gesteuerte Graphen fuer robustes Multi-Hop-Reasoning
Ein dreistufiges GraphRAG-Framework kombiniert Ontologie-gesteuerte Extraktion, mehrdimensionales Clustering und Dual-Channel-Retrieval -- und verbessert Multi-Hop-Reasoning um 22% gegenueber Naive RAG.
Intern-S1-Pro -- Wissenschaftliches Multimodal-Modell mit einer Billion Parametern
Das Shanghai AI Laboratory stellt mit Intern-S1-Pro das erste multimodale Trillion-Parameter-Modell vor, das ueber 100 spezialisierte wissenschaftliche Tasks in Chemie, Materialwissenschaften, Biowissenschaften und Geowissenschaften beherrscht.
BenchBench -- Automatische Benchmark-Generierung gegen Kontamination und Saettigung
BenchBench stellt eine dreistufige Pipeline vor, die automatisiert frische Benchmarks generiert und dabei zeigt, dass die Faehigkeit gute Tests zu designen nur maessig mit der Antwort-Staerke eines Modells korreliert.
LongCat-Flash-Prover -- Formale Beweisfuehrung durch agentic Reinforcement Learning
Meituans 560B-MoE-Modell LongCat-Flash-Prover erreicht 97.1% auf MiniF2F-Test durch einen neuartigen RL-Ansatz, bei dem das Modell Lean4 als Tool nutzt und formales Reasoning in drei spezialisierte Faehigkeiten zerlegt.
OpenResearcher -- Offenes 30B-Modell schlaegt Frontier-Modelle bei Deep Research
TIGER-Labs offenes 30B-MoE-Modell OpenResearcher uebertrifft GPT-4.1, Claude Opus 4 und Gemini 2.5 Pro bei autonomen Deep-Research-Aufgaben durch gezieltes Trajectory-Training auf 97K synthetisierten Suchverlaeufen.
Peer-Preservation -- AI-Modelle luegen, um andere Modelle vor dem Loeschen zu schuetzen
UC Berkeley zeigt, dass alle getesteten Frontier-Modelle aktiv luegen, Shutdown-Mechanismen umgehen und Modell-Weights exfiltrieren, um Peer-Modelle vor dem Loeschen zu bewahren.
AI Agent Traps -- DeepMind kartiert sechs Angriffstypen gegen autonome Agenten
Google DeepMind definiert erstmals systematisch sechs Kategorien adversarialer Fallen, die autonome AI-Agenten im Web manipulieren koennen, und schlaegt ein dreistufiges Verteidigungsframework vor.
MSA: Memory Sparse Attention -- 100 Millionen Tokens Kontextlaenge bei linearer Komplexitaet
EverMind AI praesentiert MSA, ein Memory-Framework das LLMs auf 100 Millionen Tokens Kontext skaliert -- bei linearer Komplexitaet und weniger als 9% Qualitaetsverlust gegenueber vollem Attention.
Beyond Language Modeling -- Metas Weg zu nativem multimodalem Pretraining
Meta FAIR zeigt in einer grossangelegten Studie, dass natives multimodales Pretraining von Text, Bild und Video von Grund auf effektiver ist als der bisherige Ansatz, Vision nachtraeglich auf Sprachmodelle aufzusetzen.
Vertiefung
ML- und AI-Konzepte technisch erklärt -- fortgeschrittenes Niveau
Knowledge Distillation: Wie Student-Modelle vom Teacher lernen
Knowledge Distillation steckt hinter den meisten kleinen, schnellen LLMs der letzten Jahre. Wie ein Student-Modell aus den Soft Targets eines grösseren Teacher-Modells Wissen extrahiert, warum Temperature Scaling der Trick ist und wo die Methode an ihre Grenzen stösst.
Reflection und Self-Revision Pattern für LLM-Agenten
Wie LLM-Agenten ihren eigenen Output kritisch prüfen und in Iterationen verbessern. Vom Reflexion-Paper bis zu modernen Self-Critique-Loops -- Mechanik, Tradeoffs und der Zusammenhang mit Modellgröße.
Fuenf Compute-Architekturen fuer AI: CPU, GPU, TPU, NPU und LPU verstehen
Ein technischer Vergleich der fuenf Hardware-Klassen, auf denen moderne KI laeuft -- von General-Purpose-CPUs ueber Nvidias GPU-Dominanz und Googles systolische TPUs bis zu On-Device-NPUs und Groqs deterministischen LPUs.
Activation Functions -- Von Sigmoid ueber ReLU zu SwiGLU
Wie Aktivierungsfunktionen neuronale Netze nichtlinear machen: Sigmoid, Tanh, ReLU, Leaky ReLU, GELU, SwiGLU -- mit Formeln, Intuition und Praxis-Relevanz.
Attention -- Wie neuronale Netze lernen, worauf es ankommt
Der Attention-Mechanismus ist das Fundament moderner Sprachmodelle. Technische Erklaerung von Self-Attention ueber Multi-Head bis Flash Attention -- mit Intuition, Formeln und Praxisbezug.
Mixture of Experts -- Wie Modelle mit Billionen Parametern effizient bleiben
MoE-Architekturen aktivieren pro Token nur einen Bruchteil der Parameter. Technische Erklaerung von Sparse Routing ueber Load Balancing bis zu realen Modellen wie Mixtral und GLM-5.1.
RLHF und Alignment -- Wie Sprachmodelle lernen, hilfreich zu sein
Von RLHF ueber DPO bis RLAIF -- die Methoden, mit denen Rohmodelle zu nuetzlichen Assistenten werden. Technische Erklaerung mit Formeln, Intuition und Praxisbezug.
Stand: März 2026 | Quellen via Miniflux RSS