AI Radar

Claude Code 2.1.101: Ultraplan in der Cloud, Team-Onboarding-Generator und Enterprise-CA-Vertrauen

Mit 2.1.101 verlagert Claude Code das Task-Planning in die Cloud, generiert Onboarding-Guides aus Nutzungsdaten und vertraut endlich OS-CA-Stores für Enterprise-TLS-Proxies. Zusammen mit zahlreichen Bug-Fixes ein wichtiges Update für alle Plan-Mode- und Long-Session-Nutzer.

DecisionNode: Geteiltes strukturiertes Memory für alle AI-Coding-Tools über MCP

DecisionNode ist ein Open-Source-MCP-Server, der Entscheidungen und Projektkontext in einem lokalen Vector-Store ablegt -- semantisch durchsuchbar aus Claude Code, Cursor, Windsurf und jedem anderen MCP-Client. Statt CLAUDE.md, .cursorrules und AGENTS.md parallel zu pflegen, liegt das Wissen einmal strukturiert und wird explizit zur Laufzeit abgerufen.

OpenClaw-Ökosystem: Twill, Eve und DecisionNode bündeln den Wildwuchs

Rund um den OpenClaw-Boom entsteht in Echtzeit eine Tooling-Schicht: Twill.ai delegiert PRs an Cloud-Agenten, Eve hostet OpenClaw für Teams, DecisionNode liefert geteilten Memory-Layer über MCP. Drei Beispiele für das schnelle Wachstum eines parallelen AI-Coding-Stacks.

Twill.ai -- Cloud-Agenten, die Pull Requests zurueckliefern

Das YC-S25-Startup Twill.ai ist ueber einen Launch HN in die oeffentliche Sichtbarkeit gekommen und positioniert sich im wachsenden Feld asynchroner Coding-Agenten, die Aufgaben per Ticket entgegennehmen und fertige PRs zurueckgeben.

Agentic TDD: Warum Test-Driven Development der natürliche Partner von Coding-Agenten ist

Test-Driven Development galt für Menschen lange als teuer. Für AI-Agenten ist es das Gegenteil: ein mechanischer Verifikationsprozess, der Babysitting überflüssig macht und den Agenten zuverlässig iterieren lässt, bis die Suite grün ist.

Tiger Teams, Evals und Agents: Das neue AI-Engineering-Playbook

Sam Bhagwat (Mastra) beschreibt im InfoQ-Podcast drei Saeulen, die Teams brauchen, um agentic Applications tatsaechlich in Produktion zu bringen: cross-funktionale Tiger Teams, domaenenspezifische Evals und Agents als technisches Artefakt.

Deterministisches Graph-RAG in drei Schichten

Ein praktisches Tutorial für ein dreischichtiges Graph-RAG-System, das deterministischere Retrieval-Pfade liefert als reine Vektorsuche. Wann sich der Aufwand lohnt, welche Tools sich eignen und welche Patterns produktionsreif sind.

MLOps-Retraining: Modelle vergessen nicht, sie bekommen Schocks

Ein Towards-Data-Science-Experiment auf 555.000 Fraud-Transaktionen widerlegt das Ebbinghaus-Bild vom langsam vergessenden Modell. Die exponentielle Zerfallskurve fittet mit R² = -0.31 -- schlechter als eine flache Linie. Konsequenz: Kalender-basiertes Retraining ist naiv, Shock-Detection ist der bessere Ansatz, auch fuer LLM-Systeme mit RAG und Fine-tuning.

OpenClaw-Praxis: Enthusiasmus bei c't, Ernuechterung bei NonBioS

Zwei Signale in derselben Woche: c't 3003 zeigt OpenClaw als faszinierenden Dauerlaeufer mit Lerneffekt, waehrend Nishant Soni nach rund tausend Deploys auf seiner Infrastruktur zum Ergebnis kommt, dass das Memory stillschweigend kippt -- und man erst merkt, dass es kaputt ist, wenn der Schaden angerichtet ist. Was beide Blickwinkel fuer den praktischen Umgang mit Agenten-Memory bedeuten.

Plan Mode als Schutz bei riskanten Umbauten in Claude Code

Wer Claude Code grössere Infrastruktur-Umstellungen machen lässt, sollte zwingend im Plan Mode starten. Der Agent darf lesen, aber nicht editieren, bis ein schriftlicher Plan vom Nutzer genehmigt ist. Praxis-Erfahrung aus einer Netlify-zu-eigener-Server-Migration.

Anthropic rollt Claude Cowork breit aus und startet Managed Agents

Claude Cowork ist ab sofort fuer alle Paid Plans auf macOS und Windows verfuegbar und bekommt neue Organisations-Controls. Parallel startet Anthropic mit Claude Managed Agents eine eigene Produktkategorie fuer gehostete, selbststaendig laufende Agenten.

Claude Code 2.1.98: Subagent-Monitor, Perforce-Mode und kritischer Bash-Permission-Fix

Die Releases 2.1.94 bis 2.1.98 bringen sichtbare Subagenten, schaerfere Bash-Permissions inklusive eines RCE-faehigen Bypass-Fixes sowie neue Integrationen fuer Vertex AI, Bedrock-via-Mantle und Perforce.

LLM-Serving-Engines 2026: vLLM, Ollama, SGLang, TensorRT-LLM im Vergleich

Vier Engines dominieren das LLM-Serving: Ollama fuer lokale Entwicklung, vLLM als Produktions-Default, SGLang fuer Shared-Context-Workloads, TensorRT-LLM fuer maximale NVIDIA-Performance. Jede loest ein anderes Problem.

NVIDIA AITune: Automatischer Benchmark-Runner für PyTorch-Inference-Backends

NVIDIAs neues Open-Source-Tool AITune testet automatisch verschiedene Inference-Backends für ein PyTorch-Modell und liefert das schnellste Setup. Damit wird der bisher mühsame manuelle Vergleich von TensorRT, Torch Inductor, TorchAO und anderen Engines reproduzierbar und objektiv.

Agent-Memory ohne Hype: Wann Kurzzeit, wann Langzeit

Ein praktischer Leitfaden zur Memory-Architektur von AI-Agenten. Wer baut, braucht eine klare Unterscheidung zwischen Kurzzeit-Kontext und Langzeit-Erinnerung -- nicht jeder Use-Case braucht ein komplexes Memory-System. Konkrete Patterns, typische Fehler und Tooling-Empfehlungen.

Linux-Kernel formalisiert Regeln für AI-Coding-Assistenten

Der Linux-Kernel hat offizielle Richtlinien veröffentlicht, wie AI-Coding-Assistenten bei Beiträgen verwendet werden dürfen. Mit Disclosure-Pflicht, Verantwortungszuweisung und praktischen Regeln ist das Dokument ein Vorbild für andere Open-Source-Projekte und Unternehmen.

Der System-Prompt ist das Produkt, nicht das Feature

Ein praxisrelevanter Perspektivwechsel aus der Towards-AI-Community: Wer eine LLM-basierte App baut, sollte den System-Prompt wie ein Kernprodukt behandeln -- mit Versionierung, Evals und Ownership. Konkrete Empfehlungen für Prompt-Strukturierung, Testing und Rollout.

Agent-Infrastruktur: Colab MCP Server, botctl und Skrun

Drei neue Tools fuer Agent-Infrastruktur: Google oeffnet Colab per MCP fuer AI-Agenten, botctl verwaltet autonome Bots als Prozesse, und Skrun macht Agent Skills per API aufrufbar.

tui-use: AI-Agenten steuern interaktive Terminal-Programme

tui-use gibt AI-Agenten Zugriff auf REPLs, Debugger und TUI-Apps. Ein Headless-xterm-Emulator ueberwacht den PTY-Event-Stream in Echtzeit -- ohne Screenshot-Parsing.

VS Code 1.115: Neue Agents-Companion-App fuer parallele Agent-Sessions

VS Code 1.115 fuehrt eine eigenstaendige Agents-App ein, die parallele Agent-Sessions ueber mehrere Repos ermoeglicht -- aktuell als Insiders-Preview verfuegbar.

Fuenf agile Praktiken gegen die Qualitaetsfalle bei AI-generiertem Code

AI-Coding-Assistenten steigern die Produktivitaet um 15-55%, aber ohne Leitplanken drohen Sicherheitsluecken und technische Schulden. Fuenf bewaehrte agile Methoden schaffen die noetige Absicherung.

Expertise als AI-Skill kodifizieren: Warum Prompts nicht reichen und was stattdessen funktioniert

Phodal Huang hat zehn Jahre Schreiberfahrung in ein wiederverwendbares AI-Skill-System destilliert. Die Drei-Stufen-Methodik -- historische Segmentierung, Musterextraktion, Regeluebersetzung -- ist uebertragbar auf jede kodifizierbare Expertise: Code Reviews, Architekturentscheidungen, Debugging.

Research-Driven Agents: Coding-Agenten liefern bessere Ergebnisse, wenn sie zuerst recherchieren

SkyPilot zeigt an llama.cpp, dass ein Coding-Agent mit vorgelagerter Recherche-Phase -- Papers lesen, konkurrierende Projekte studieren -- signifikant bessere Optimierungen findet als einer, der direkt am Code ansetzt. 15% schnellere Textgenerierung auf x86, Gesamtkosten $29.

Astropad Workbench -- Remote Desktop fuer AI-Agenten auf dem Mac Mini

Astropad positioniert sein neues Tool Workbench als Remote-Desktop-Loesung fuer die Ueberwachung und Steuerung von AI-Agenten auf Mac Minis -- per iPhone oder iPad.

Claude Managed Agents -- Anthropics Plattform fuer produktionsreife AI-Agenten

Anthropic launcht Managed Agents als Public Beta -- composable APIs fuer cloud-hosted Agenten mit Sandboxing, Multi-Agent-Koordination und Governance.

GitHub Copilot CLI: Rubber Duck Review Agent

GitHub Copilot CLI bekommt einen experimentellen Review-Agenten, der ein zweites KI-Modell als unabhaengigen Code-Reviewer einsetzt

Google AI Edge Eloquent -- Offline-Diktat mit On-Device Gemma

Google veroeffentlicht eine kostenlose Diktier-App fuer iOS, die dank On-Device-Gemma-Modell komplett offline funktioniert und Sprache in bereinigten Text umwandelt.

Marimo Pair und Gemma Fine-Tuner: Zwei Open-Source-Tools fuer AI-Agenten-Entwicklung

Marimo Pair bringt AI-Agenten direkt in reaktive Python-Notebooks. Der Gemma Multimodal Fine-Tuner ermoeglicht LoRA-Fine-Tuning von Gemma 4 auf Apple Silicon -- inklusive Audio und Bild.

Microsoft Agent Governance Toolkit: Sicherheitsleitplanken für AI-Agenten

Open-Source-Toolkit von Microsoft, das die OWASP Top 10 Risiken für AI-Agenten mit Runtime-Policies, sicherer Kommunikation und Compliance-Überwachung adressiert.

Feedback Flywheel und "Run Out to Meet It" -- Zwei Denkmodelle fuer AI-Teams

Martin Fowler beschreibt den Feedback Flywheel als systematischen Weg, AI-Learnings im Team zu verankern. Kent Beck argumentiert, dass AI die Expertise-Hierarchie zuruecksetzt.

Freestyle: Sandbox-Infrastruktur für Coding-Agenten

Freestyle bietet Git, VMs und Deployments als API für KI-Coding-Agenten. Agenten können damit Repos klonen, Dev-Server starten, VM-Instanzen forken und Code deployen.

Reducto Deep Extract: Agenten-basierte Dokumentenextraktion mit Selbstkorrektur

Reducto launcht Deep Extract -- einen Agenten-Ansatz für strukturierte Dokumentenextraktion, der seine eigene Ausgabe in einer Verifikationsschleife prüft und korrigiert. 99-100% Feldgenauigkeit bei komplexen Dokumenten.

Context Engineering: Die eigentliche Disziplin hinter funktionierenden AI-Agenten

Die meisten Agent-Fehler sind keine Modell-Fehler, sondern Kontext-Fehler. Context Engineering -- das gezielte Zusammenstellen, Isolieren und Reduzieren von Kontext -- entscheidet ueber Erfolg und Misserfolg. Ein Deep Dive mit Praxisbeispiel.

Harness Engineering: Was passiert bei 1 Milliarde Tokens pro Tag

Ryan Lopopolo (OpenAI) beschreibt, wie sein Team eine Million LOC ohne menschlichen Code oder Code-Review produziert -- und was Harness Engineering fuer Entwickler bedeutet.

Praxis4. April 2026

Anthropics Three-Agent Harness: Planner, Generator, Evaluator

Anthropic veroeffentlicht ein Multi-Agent-Framework, das Planung, Code-Generierung und Evaluation auf drei spezialisierte Agenten verteilt. Ermoeglicht mehrstuendige autonome Entwicklungssessions ohne Kontextverlust.

ctx und Apfel: Zwei neue Werkzeuge fuer AI-Entwickler

ctx bringt ein dediziertes Agentic Development Environment fuer Multi-Agent-Workflows. Apfel macht Apples eingebautes Sprachmodell per CLI und API nutzbar -- komplett on-device und kostenlos.

Simon Willison bei Lenny's Podcast: Der Wendepunkt ist da

Simon Willison erklaert auf Lenny's Podcast, warum November 2025 der Wendepunkt fuer Coding-Agenten war, was Dark Factories sind und warum 50 Prozent aller Entwickler bis Ende 2026 95 Prozent ihres Codes per AI schreiben werden.

AI-Agenten in Monorepos: Was anders konfiguriert werden muss

Monorepos brauchen andere Agent-Konfiguration als Single-Repos -- von Scope-Routing ueber Workspace-gefilterte Commands bis zu Dependency-aware Verification. Ein Praxis-Leitfaden.

Beyond RAG: Memory-Architekturen fuer AI-Agenten

RAG mit Vector-Datenbanken ist nicht die einzige Loesung fuer AI-Wissensmanagement. Googles Memory Agent Pattern, Mintlifys Virtual Filesystem und eine wachsende Zahl von Memory-Frameworks zeigen: Agent Memory ist Infrastruktur, nicht Feature.

Der Single-Agent Sweet Spot, den niemand zugeben will

95 Prozent aller Agenten schaffen es nie in Produktion -- meistens weil die Architektur zu komplex gewaehlt wurde. Ein einzelner Agent mit guten Tools schlaegt in den meisten Faellen ein Multi-Agent-System.

Starving Genies: Warum alle AI-Anbieter gleichzeitig Usage-Limits einfuehren

Kent Beck analysiert mit seinem 3X-Framework, warum alle grossen AI-Anbieter gleichzeitig Nutzungslimits einfuehren. Der Engpass ist nicht technisch, sondern narrativ -- Investoren brauchen einen sichtbaren Pfad zur Profitabilitaet.

Wie Claude Code wirklich funktioniert: Die offizielle Architektur

Anthropics offizielle Dokumentation erklaert die Drei-Phasen-Schleife, das Kontextfenster als knappe Ressource und die Scaling-Muster -- vom Session-Management ueber Checkpoints bis zu parallelen Agenten.

Agent-Monitoring und Multi-Agent-Tooling: Agents Observe und Baton

Zwei neue Tools adressieren blinde Flecken beim Arbeiten mit AI-Coding-Agenten -- Agents Observe liefert Echtzeit-Monitoring fuer Claude Code, Baton verwaltet mehrere Agenten in isolierten Worktrees.

Microsoft Copilot Cowork -- Multi-Modell-Workflows und Council

Mit Copilot Cowork fuehrt Microsoft Multi-Modell-Workflows in Microsoft 365 ein: GPT generiert, Claude prueft -- und das Council-Feature zeigt Antworten verschiedener Modelle nebeneinander.

Cursor 3: Agent-Modus und der Dreikampf der Coding-Tools

Cursor veroeffentlicht Version 3 mit neuem Agent-Erlebnis und konkurriert nun direkt mit Claude Code und OpenAI Codex. Gleichzeitig fuehrt OpenAI flexible Preise fuer Codex Teams ein.

Google AI Updates Maerz 2026: Was Entwickler wissen muessen

Googles Maerz-Rundschau bringt Workspace-KI, Gemini API Spend Caps, Vibe Coding in AI Studio und Ask Maps -- ein Ueberblick mit Fokus auf Developer-Relevanz.

Koog: JetBrains' Enterprise AI Agent Framework fuer Java

JetBrains veroeffentlicht Koog, ein JVM-natives Framework fuer AI-Agenten in Java und Kotlin. Enterprise-Backends koennen LLMs jetzt ohne Python-Abhaengigkeiten orchestrieren. Parallel bringt Helidon 4.4.0 agentic AI Support via LangChain4j.

Sakana Marlin: Ultra Deep Research fuer autonome Strategiearbeit

Sakana AI stellt mit "Marlin" einen autonomen Forschungsagenten vor, der bis zu 8 Stunden selbststaendig recherchiert und fertige Strategieanalysen liefert. Beta-Zugang ab sofort.

Windsurf: Cognitions AI-IDE fuehrt die Dev-Tool-Rankings an

Windsurf, nach der Uebernahme durch Cognition (Devin) weiterentwickelt, fuehrt im Maerz 2026 die AI-Dev-Tool-Rankings an -- mit SWE-1.5, Arena Mode, parallelen Agenten und einem Preismodell-Umbau.

Die zweite Phase der Agentic-Entwicklung: Von Ports zu Neuerfindungen

Drew Breunig beschreibt den Uebergang von der ersten SDD-Phase (Klone und Ports mit bestehenden Test-Suites) zur zweiten Phase, in der Coding-Agenten Software von Grund auf neu denken.

AI Coding Tools 2026 -- das aktuelle Ranking

Claude Code fuehrt die Nutzungsstatistiken an, Cursor waechst rasant, Codex erreicht aus dem Stand 60% von Cursors Usage. Der Markt teilt sich in drei Paradigmen -- und die meisten Entwickler kombinieren mehrere Tools.

Cockcroft: Agent-Schwaerme dirigieren statt Agenten prompten

Adrian Cockcroft (ex-Netflix VP Cloud Architecture) zeigt seinen Director-Level-Ansatz zum Steuern autonomer Agent-Schwaerme mit Cursor, Claude Flow und MCP-Servern -- inklusive konkreter Erfahrungswerte aus BDD-Experimenten und Language Porting.

Harness Engineering: Coding-Agenten systematisch steuern

Martin Fowler veroeffentlicht Birgitta Boeckelers Konzept des Harness Engineering -- eine Disziplin fuer das Bauen von Strukturen, die Coding-Agenten in die richtige Richtung lenken. Dazu drei neue Denkmodelle aus Fowlers Fragments.

Eigenen Coding-Agenten bauen: Was zwischen Agent-Loop und Claude Code liegt

Victor Dibia zeigt, warum eine einfache Agent-Loop fuer echte Coding-Aufgaben scheitert und welche drei Erweiterungen -- Tools, Hooks und Context Management -- den Unterschied zu produktionsreifen Agenten wie Claude Code ausmachen.

Team-Standards als Infrastruktur: Martin Fowler ueber AI-Coding-Instruktionen

Martin Fowler argumentiert: AI-Coding-Instruktionen sollten wie Infrastruktur behandelt werden -- versioniert, reviewed und geteilt. Parallel fordern Agentic-Engineering-Patterns mehr Disziplin.

Wenn AI-Agenten ueberraschen: Werbung in PRs und git reset --hard

GitHub Copilot fuegt Werbung in PRs ein und zieht sie nach Backlash zurueck. Claude Code fuehrt periodisch git reset --hard aus. Beide Faelle zeigen: Agent-Autonomie braucht Leitplanken.

AI-Refactoring in der Produktion: $400 gegen $500k Serverkosten

Drei Fallstudien zeigen AI-gestuetztes Refactoring im Produktionseinsatz: Ein JSONata-Rewrite spart 500.000 Dollar/Jahr, eine Solo-Postgres-Extension schlaegt etablierte Alternativen, ein Agent baut eine JS-Engine.

CLAUDE.md als Steuerungsinstrument: Token-Optimierung und Verhaltenskontrolle

CLAUDE.md/AGENTS.md als Steuerungsinstrument: Token-Optimierung vs. ETH-Studie die zeigt, dass auto-generierte Context-Files Erfolgsraten um 0.5-3% senken und Kosten um 20-23% erhoehen.

Meta: Structured Prompts machen LLMs zuverlaessiger beim Code Review

Meta-Forscher erreichen 93% Accuracy bei Code-Patch-Verifikation durch LLMs -- ohne Code-Ausfuehrung, nur mit strukturierten Prompts und semi-formalem Reasoning.

Spec Layer und TCR: Neue Qualitaetskontrolle fuer AI-generierten Code

Matt Rickard argumentiert fuer eine 'Spec Layer' -- formale Spezifikationen statt nur Tests. Kent Beck experimentiert mit TCR fuer AI-Agents: Code wird bei fehlgeschlagenen Tests automatisch verworfen.

Praxis29. März 2026

Google Gemini Agent Skill: Wie ein simpler Fix die SDK-Wissensluecke schliesst

AI-Modelle kennen ihre eigenen SDK-Updates nicht. Googles neues Agent Skill Feature injiziert aktuelle Dokumentation als Kontext und verbessert Coding-Ergebnisse drastisch.

Praxis29. März 2026

Architektur statt Code: Was beim Arbeiten mit AI-Agents wirklich zaehlt

Matt Webb, Thorsten Ball und John Regehr argumentieren unabhaengig: Die wichtigste Faehigkeit beim Agent-Coding ist nicht Prompt-Engineering, sondern Architektur-Denken, Wissensverteilung und Constraints.

Praxis29. März 2026

Anatomie des .claude/ Ordners: Claude Code richtig konfigurieren

Ein viraler HN-Artikel (552 Punkte) erklaert die Struktur des .claude/ Verzeichnisses. CLAUDE.md, Settings, Commands und Memory -- wer Claude Code produktiv nutzen will, sollte hier investieren.

Praxis27. März 2026

OpenAI Codex Plugin-Marketplace: Zentrale Steuerung fuer Agent-Erweiterungen

OpenAI fuehrt ein Plugin-System fuer Codex ein -- installierbare Bundles mit Skills, Integrationen und MCP-Servern, gesteuert ueber JSON-basierte Governance-Kataloge auf Repo- oder Unternehmensebene.

Praxis27. März 2026

Cohere Spracherkennung: Open-Source-Modell uebertrifft Whisper

Cohere veroeffentlicht ein Open-Source Speech-to-Text-Modell mit 2 Milliarden Parametern unter Apache 2.0 -- laut Benchmarks besser als OpenAIs Whisper, lauffaehig auf Consumer-GPUs.

Mistral Voxtral TTS: Open-Source Text-to-Speech fuer Edge-Geraete

Mistral veroeffentlicht Voxtral TTS, ein auf Ministral 3B basierendes Open-Source-TTS-Modell das auf Smartwatches laeuft, 9 Sprachen unterstuetzt und Voice-Cloning aus unter 5 Sekunden Audio beherrscht.

TypeScript 6.0: Letzte JS-basierte Version vor dem Go-Umstieg

TypeScript 6.0 ist als GA erschienen -- die letzte Version auf JavaScript-Codebasis. Sie dient als Bruecke zum Go-basierten TypeScript 7.0 und bringt besseres Type-Checking, ein neues stableTypeOrdering-Flag und es2025-Support.

Vercel JSON-Render: Generative UI aus strukturiertem JSON

Vercel veröffentlicht json-render als Open Source (Apache 2.0) -- ein Framework, das AI-Modellen ermöglicht, strukturierte Benutzeroberflächen aus natürlichsprachlichen Prompts zu komponieren.

Figma MCP: Design-Canvas wird Agent-steuerbar

Figma hat seinen MCP-Server in Open Beta gelauncht. AI-Agents können jetzt direkt auf der Design-Canvas arbeiten -- Cursor, Copilot CLI und Claude Code nutzen das bereits. Uber automatisiert mit uSpec ganze Design-Specs in Minuten statt Wochen.

Cloudflare Dynamic Workers: Runtime fuer AI-Agent-Code

Cloudflare launcht Dynamic Workers, eine isolate-basierte Runtime die AI-generierten Code schneller und sicherer ausfuehrt als traditionelle Container -- gebaut fuer die Agent-Aera.

Ensu: Entes lokale LLM-App mit Privacy-First-Ansatz

Ente, bekannt fuer verschluesselten Foto-Speicher, veroeffentlicht Ensu -- eine App fuer lokale LLM-Inferenz, bei der keine Daten das Geraet verlassen.

Google Stitch: KI generiert interaktive UI-Prototypen aus Text

Google erweitert Stitch zum KI-Design-Editor, der aus Sprach- oder Textbeschreibungen interaktive UI-Prototypen generiert -- ein Werkzeug fuer schnelles Prototyping ohne Designkenntnisse.

MolmoWeb: Offener Web-Agent navigiert nur mit Screenshots

AI2 veroeffentlicht MolmoWeb, einen vollstaendig offenen Web-Agenten mit 4B und 8B Parametern, der Websites ausschliesslich ueber Screenshots navigiert -- ohne DOM-Zugriff oder HTML-Parsing.

Zed Zeta2: Edit-Prediction von Grund auf neu gebaut

Zed veroeffentlicht Zeta2, ein komplett neu trainiertes Edit-Prediction-Modell das 30% besser als Zeta1 abschneidet und Codeaenderungen im Editor voraussagt.

Dependency Cooldowns: Neue Packages nicht sofort installieren

Nach dem LiteLLM-Angriff fordert Simon Willison Dependency Cooldowns -- die Praxis, neue Package-Versionen erst nach einer Wartezeit zu installieren, um Supply-Chain-Attacken das Zeitfenster zu nehmen.

Claude Code Tipps für den Alltag

Praktische Tipps und Workflows für effektives Arbeiten mit Claude Code, inkl. Auto Mode, Sub-Agents, Skills und MCP-Server

Claude Code steuert jetzt den Desktop

Anthropic erweitert Claude Code und Cowork um Computer Use -- der AI-Agent kann Maus, Tastatur und Browser autonom bedienen

Hypura: Storage-tier-aware LLM-Inference auf Apple Silicon

Hypura ist ein Scheduler, der LLM-Inferenz auf Apple Silicon optimiert, indem er Modell-Layer intelligent zwischen RAM und SSD-Swap verteilt.

JetBrains Central -- Kontrollzentrum fuer AI-Agents

JetBrains stellt Central vor, eine Plattform zum Steuern, Ueberwachen und Optimieren von AI-Agent-Workflows ueber IDEs und Teams hinweg

Mozilla cq -- Stack Overflow fuer AI-Coding-Agents

Mozilla launcht cq, ein System zum Teilen von Wissen zwischen AI-Coding-Agents ueber standardisierte Knowledge Units

AI-Modelle systematisch vergleichen und auswaehlen

Ein strukturierter Drei-Stufen-Ansatz zur Modell-Auswahl fuer agentic Tasks -- von Benchmarks bis zum eigenen Testing

Context Anchoring -- Gegen das Vergessen in langen AI-Sessions

ThoughtWorks-Forschung zeigt, wie Context Compaction in langen AI-Coding-Sessions zu Fehlern fuehrt, und was dagegen hilft

AI-generierte PRs mergen halb so oft -- Code war nie der Engpass

LinearB-Benchmarks 2026 und Agoda-Analyse zeigen, dass AI-Code schneller entsteht, aber am Review-Prozess scheitert

StoatWaffle -- Malware greift Entwickler ueber VS Code an

Neue Malware-Variante nutzt VS Code tasks.json mit runOn:folderOpen, um bei Projekt-Oeffnung automatisch Schadcode auszufuehren

DSPy in der Praxis -- Engineering Patterns statt Hype

Warum DSPy trotz guter Ideen kaum genutzt wird und welche Engineering Patterns tatsaechlich funktionieren

Praxis

Ohne Titel

Strömungen

Forschung & Trends -- gut davon gehört zu haben

Strömungen11. April 2026

Overworld Waypoint-1.5: Generative 3D-Welten auf Konsumenten-Hardware

Overworlds neues Waypoint-1.5-Modell generiert interaktive 3D-Welten direkt auf Mac und Windows ohne dedizierte GPU-Cluster. Damit verschiebt sich die Schwelle für World Models von Cloud-Rechenzentren auf Entwickler-Notebooks -- mit Folgen für Game Development, Simulation und Robotik-Training.

Strömungen11. April 2026

Alibaba VimRAG: Memory Graph für multimodale Kontexte

Alibabas Tongyi Lab veröffentlicht VimRAG, ein multimodales RAG-Framework, das Memory Graphs statt reine Vektorsuche für die Navigation in großen visuellen Kontexten nutzt. Ein Schritt weg von rein semantischem Retrieval -- in Richtung deterministischer, strukturierter Memory-Architekturen für Bilder, Layouts und Diagramme.

Strömungen11. April 2026

Gemini-Wasserzeichen zerlegt: Reverse-Engineering von SynthID

Der Entwickler Alosh Denny (aloshdenny) hat Googles SynthID-Watermarking fuer Gemini-Bilder ohne Zugriff auf Encoder oder Decoder rueckentwickelt. Sein Repository 'reverse-SynthID' zeigt, dass das Wasserzeichen aus resolutionsabhaengigen Traegerfrequenzen im FFT-Spektrum besteht -- und liefert ein CLI, das sie mit 43 dB PSNR wieder entfernt. Die Debatte um AI-Provenance verschiebt sich damit erneut.

Strömungen10. April 2026

Alibabas Happy Horse dominiert Video-Benchmarks

Das unter Pseudonym veroeffentlichte Videomodell Happy Horse 1.0 hat aus dem Stand die Spitze der Text-to-Video- und Image-to-Video-Benchmarks uebernommen. Laut The Information steckt Alibabas Cloud-Sparte dahinter -- vermutlich die naechste Generation der offenen Wan-Familie aus dem Tongyi Lab.

Strömungen10. April 2026

Google Gemini generiert interaktive 3D-Modelle und Simulationen

Gemini antwortet auf komplexe Fragen nicht mehr nur mit Text, sondern mit live manipulierbaren 3D-Modellen, Diagrammen und Simulationen direkt im Chat. Verfuegbar im Pro-Tier ueber gemini.google, ausgeloest durch Phrasen wie 'show me' oder 'help me visualize'.

178 KI-Modelle per Schreibstil identifiziert -- Fingerprinting und Similarity-Cluster

Rival Tips hat 178 KI-Modelle anhand von 32 stilometrischen Dimensionen fingerprinted und dabei 9 Klon-Cluster mit ueber 90% Aehnlichkeit identifiziert. Die Analyse zeigt: Viele Modelle unterschiedlicher Anbieter schreiben nahezu identisch.

CompreSSM: MIT-Forscher komprimieren AI-Modelle während des Trainings

MIT-Technik CompreSSM nutzt Hankel-Singulärwerte aus der Kontrolltheorie, um State Space Models bereits nach 10% des Trainings auf ihre wesentlichen Komponenten zu reduzieren. Ergebnis: bis zu 4x schnelleres Training bei gleicher oder besserer Accuracy.

Gemini Notebooks: Google verzahnt NotebookLM mit der Gemini-App

Google integriert Notebooks direkt in die Gemini-App und verbindet damit Chat-Interface und NotebookLM-Recherche an einem Ort. Die Strategie: weniger App-Wechsel, breitere Reichweite fuer das bisherige Nischen-Tool.

Hierarchical Agentic RAG -- Supervisor-Worker-Architektur mit autonomer Fehlerkorrektur

InfoQ beschreibt eine hierarchische RAG-Architektur mit Supervisor-Worker-Topologie und reflektiver Fehlerkorrektur, die Halluzinationen von 28,5% auf 7,1% senkt und modalitaetsuebergreifende Abfragen zuverlaessig beantwortet.

PaperOrchestra: Googles Multi-Agent-Framework fuer automatisierte Forschungsarbeiten

Google Cloud AI Research stellt PaperOrchestra vor -- ein Multi-Agent-System das aus unstrukturierten Forschungsnotizen einreichungsfertige LaTeX-Manuskripte erzeugt. In menschlichen Evaluationen uebertrifft es bestehende Ansaetze mit 50-68% Vorsprung bei der Literaturuebersicht.

AWS Agent Registry: Zentrale Verwaltung gegen Agentic Sprawl

AWS startet die Agent Registry in Preview -- ein zentraler Discovery- und Governance-Hub für AI-Agenten im Unternehmen. Zusammen mit dem neuen Browser Agent für React-Apps entsteht ein umfassendes Agent-Infrastruktur-Ökosystem, das über die eigene Cloud hinausreicht.

MCP Dev Summit: Gateways, Stateless Sessions und Enterprise-Infrastruktur

Auf dem ersten MCP Dev Summit der Agentic AI Foundation (Linux Foundation) in New York skizzieren Anthropic, AWS, Uber und andere den Weg von lokalen stdio-Servern zu Enterprise-Infrastruktur. MCP Gateways etablieren sich als Control Plane für Agent-Interaktionen.

GLM-5.1 -- Z.AIs 754B-Modell laeuft autonom acht Stunden

Z.AI veroeffentlicht GLM-5.1 als Open-Weight-Modell mit 754 Milliarden Parametern. Es erreicht SOTA auf SWE-Bench Pro und kann acht Stunden autonom arbeiten.

Muse Spark -- Metas erstes Modell aus den Superintelligence Labs

Meta veroeffentlicht Muse Spark, ein nativ multimodales Reasoning-Modell -- das erste Produkt der neuen Superintelligence Labs unter Alexandr Wang. Es ist kompetitiv, aber kein neues State-of-the-Art.

Agent-Infrastruktur: ByteDances DeerFlow und das Transport-Layer-Problem

Zwei Entwicklungen auf verschiedenen Ebenen der Agent-Infrastruktur: ByteDance veroeffentlicht mit DeerFlow ein LangGraph-basiertes Framework mit Sandbox-Isolation und paralleler Ausfuehrung. Gleichzeitig zeigt eine Netflix-Analyse, dass der Transport Layer bei Multi-Turn-Agenten zum Performance-Engpass wird -- Stateful Continuation reduziert den Payload um ueber 80 Prozent.

JetBrains setzt auf ACP und Deep Agents fuer IDE-integrierte AI-Agenten

JetBrains erklaert, wie das Agent Client Protocol und LangChains Deep Agents Framework AI-Agenten nativ in IDEs integrieren -- ein Gegenentwurf zu terminalbasierten Agenten.

Strömungen7. April 2026

Gemma 4: Zwei Millionen Downloads und die Local-First-Welle

Googles Gemma 4 erreicht in einer Woche zwei Millionen Downloads. Das Modell läuft auf Consumer-Hardware und befeuert die Diskussion über lokale Alternativen zu Cloud-Abonnements.

Strömungen7. April 2026

Drei Open-Source-Signale -- Harrier, Meta und GLM-5.1

Microsoft open-sourced das Embedding-Modell Harrier unter MIT-Lizenz, Meta kuendigt eine hybride Open-Source-Strategie an, und Zhipus GLM-5.1 erreicht 94% von Claude Opus 4.6 bei Coding-Tasks -- alles innerhalb einer Woche.

Strömungen7. April 2026

Multi-Agent-Orchestrierung: Neue Werkzeuge fuer parallele Agenten

Drei Entwicklungen zeigen, wie sich Multi-Agent-Orchestrierung konkretisiert: Googles Open-Source-Testbed Scion isoliert Agenten auf Infrastrukturebene, Output.ai buendelt Produktionserfahrung aus 500+ Agenten in ein TypeScript-Framework, und ein praxisnaher Leitfaden zu Race Conditions liefert die Grundlagen fuer robuste parallele Systeme.

Strömungen6. April 2026

Qwen-3.6-Plus: Erstes Modell mit einer Billion Tokens pro Tag

Qwen-3.6-Plus verarbeitet laut OpenRouter als erstes Modell ueber eine Billion Tokens taeglich. Das ist ein Indikator fuer die rasant steigende Nutzung chinesischer Open-Source-Modelle.

Strömungen5. April 2026

FIPO: Alibabas Qwen-Team bringt Reasoning-Modelle zum tieferen Denken

Future-KL Influenced Policy Optimization (FIPO) gewichtet jeden Reasoning-Schritt nach seinem Einfluss auf nachfolgende Schritte. Ergebnis: Antwortlaenge von 4.000 auf 10.000+ Tokens, AIME-Genauigkeit uebertrifft o1-mini.

Strömungen3. April 2026

Arcee Trinity Large Thinking -- Open-Source Reasoning unter Apache 2.0

Arcee AI veroeffentlicht mit Trinity Large Thinking ein 398B-MoE-Reasoning-Modell unter Apache 2.0, das auf agentische Workflows und Tool-Nutzung spezialisiert ist.

Strömungen3. April 2026

Zhipu GLM-5V-Turbo -- Design-Mockups direkt in Frontend-Code

Zhipu AIs multimodales Coding-Modell wandelt Design-Mockups in ausfuehrbaren Frontend-Code um und integriert Wahrnehmung, Planung und Ausfuehrung fuer Agent-Workflows.

Strömungen3. April 2026

Gas Town erreicht v1.0 -- Multi-Agent Framework wird erwachsen

Steve Yegges Multi-Agent-Orchestrierungsframework Gas Town hat zusammen mit dem Issue-Tracking-System Beads die Version 1.0.0 erreicht. Nach drei Monaten intensiver Entwicklung und 14 Vorab-Releases stellt sich die Frage: Ist das Framework aus der experimentellen Phase herausgewachsen?

Gemma 4: Googles leistungsfaehigste offene Modellfamilie jetzt unter Apache 2.0

Google DeepMind veroeffentlicht Gemma 4 mit vier Modellen unter Apache 2.0 -- erstmals ohne proprietaere Lizenz. Von 2B bis 31B, alle vision-faehig und fuer lokale Ausfuehrung optimiert.

GPT-5.4 -- Tool Search und die drei Varianten

OpenAIs GPT-5.4 bringt mit Tool Search eine neue Architektur fuer dynamisches Tool-Calling, drei Modellvarianten und ein 1M-Token-Kontextfenster. Ein Deep Dive in die technischen Details und was das fuer Agent-Entwickler bedeutet.

IBM Granite 4.0 3B Vision: Spezialisiertes VLM fuer Dokumentenextraktion

IBM veroeffentlicht Granite 4.0 3B Vision -- ein kompaktes Vision-Language-Model, das auf Enterprise-Dokumentenextraktion spezialisiert ist und den Trend zu kleinen, zweckgebundenen VLMs unterstreicht.

LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio

Lightricks veroeffentlicht LTX 2.3 -- ein 22-Milliarden-Parameter-Modell, das natives 4K-Video bei 50 FPS mit synchronisiertem Audio in einem einzigen Durchlauf erzeugt. Open Weights, kommerziell nutzbar.

Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild

Microsofts erst sechs Monate alte MAI-Gruppe veroeffentlicht drei eigene Foundational Models -- darunter MAI-Transcribe-1 mit 2.5-facher Geschwindigkeit zum Vorgaenger fuer 0.36 Dollar pro Audio-Stunde.

Mistral Small 4: Ein Modell ersetzt drei -- Reasoning, Multimodal und Coding vereint

Mistral AI veroeffentlicht Mistral Small 4 unter Apache 2.0 -- ein 119B-Parameter MoE-Modell mit nur 6B aktiven Parametern, das erstmals Instruct, Reasoning und Coding in einer einzigen Architektur vereint.

NVIDIA Nemotron 3 Super: Hybrid-Architektur fuer agentic AI

NVIDIA stellt auf der GTC 2026 Nemotron 3 Super vor -- ein 120B-Open-Weight-Modell mit Mamba-Transformer-Hybrid und nur 12B aktiven Parametern, das den SWE-bench-Rekord unter Open-Weight-Modellen haelt.

Qwen3.6-Plus: Alibabas drittes Modell in wenigen Tagen zielt auf Agenten

Alibaba veroeffentlicht Qwen3.6-Plus als drittes proprietaeres Modell innerhalb weniger Tage -- explizit fuer agentic workflows optimiert.

Claude Code findet Zero-Day-Exploits in Vim und GNU Emacs

Ein Sicherheitsforscher hat mit einfachen Prompts an Claude Code Zero-Day-Remote-Code-Execution-Luecken in Vim und GNU Emacs aufgedeckt -- innerhalb von Minuten.

Anthropic findet emotionsaehnliche Repraesentationen in Claude

Anthropic-Forscher haben in Claude Repraesentationen entdeckt, die aehnliche Funktionen wie menschliche Gefuehle ausueben -- sogenannte funktionale Emotionen. Das hat Implikationen fuer AI-Sicherheit, Alignment und Interpretierbarkeit.

Google DeepMind katalogisiert sechs Angriffstypen gegen autonome AI-Agenten

DeepMind-Forscher haben die erste systematische Taxonomie erstellt, wie Websites, Dokumente und APIs genutzt werden koennen, um autonome AI-Agenten zu manipulieren und zu kapern.

Humanoide Robotik: Von der Demo zur Fabrik

Die humanoide Robotik hat 2025/2026 den Sprung von der Forschungsdemo zur kommerziellen Realitaet geschafft -- mit Milliarden-Investments, ersten Fabrikeinsaetzen und NVIDIA als Infrastruktur-Lieferant.

KAIROS: Anatomie von Anthropics Always-On Agent Daemon

Der Claude Code Source Leak enthuellt KAIROS -- einen persistenten Hintergrund-Agenten mit Tick-Loop, Blocking Budget, SleepTool und naechtlicher Memory-Konsolidierung. Ein technischer Deep Dive in die Architektur des proaktiven Agenten.

MLPerf-Rekorde und die Grenzen von AI ohne Abstraktion

Nvidia setzt mit 288 Blackwell-Ultra-GPUs neue MLPerf-Rekorde, waehrend eine Studie von Nvidia, UC Berkeley und Stanford zeigt: Ohne menschlich designte Abstraktionen scheitern selbst Top-Modelle bei der Robotersteuerung -- Agentic Scaffolding schliesst die Luecke.

Agent Skill Marketplaces: Wiederverwendbare Faehigkeiten fuer AI-Agenten

Agent Skill Marketplaces sind Plattformen, auf denen AI-Agenten wiederverwendbare Faehigkeiten entdecken, installieren und nutzen koennen. Das SKILL.md-Format hat sich als offener Standard etabliert -- unterstuetzt von Anthropic, OpenAI und Google. Ein Ueberblick ueber die fuenf wichtigsten Marktplaetze.

GTC 2026: Enterprise Agentic AI wird Mainstream

NVIDIAs GTC 2026 war dominiert von Enterprise-Agent-Infrastruktur statt rohen Benchmark-Ankuendigungen. Nemotron 3 Super liefert das Sprachmodell, OpenClaw das Betriebssystem und NemoClaw die Enterprise-Schicht -- zusammen das bisher konkreteste Gesamtpaket fuer produktionsreife AI-Agenten.

Lokale KI beschleunigt: Ollama MLX, 1-Bit Bonsai und Solo-Projekte mit AI

Ollama bekommt MLX-Support fuer Apple Silicon, PrismML zeigt kommerzielle 1-Bit-LLMs, AMD startet Lemonade als lokalen LLM-Server, und ein Entwickler baut solo mit Claude Code eine Postgres-Extension die ParadeDB schlaegt.

Qwen3.5-Omni: Alibabas Multimodell lernt Code-Schreiben aus Sprache und Video

Alibabas Qwen3.5-Omni verarbeitet Text, Bild, Audio und Video -- und hat eine emergente Faehigkeit entwickelt: Code aus gesprochenen Anweisungen und Video schreiben, ohne dafuer trainiert worden zu sein.

Google TimesFM: Foundation Model fuer Zeitreihen mit 16k Kontext

Google Research veroeffentlicht TimesFM -- ein Open-Source Foundation Model mit 200 Millionen Parametern fuer Zeitreihen-Analyse, Forecasting und Anomalie-Erkennung.

Maximo: Roboter installiert Solarmodule doppelt so schnell wie Menschen

Maximos Roboter installiert automatisiert Solarmodule mit fast doppelter Geschwindigkeit. Ein konkretes Beispiel fuer KI-Robotik im Produktionseinsatz jenseits der Labor-Demo.

MCP in Produktion: Pinterest deployt Agent-Oekosystem, Elgato bringt Hardware-Support

Das Model Context Protocol erreicht Produktionsreife: Pinterest deployt ein MCP-Oekosystem fuer AI-Agent-Workflows, Elgato bringt MCP auf den Stream Deck. Event Sourcing erweist sich als ideales Architekturmuster fuer MCP-basierte Kontextbereitstellung. Der Standard breitet sich von Developer-Tools auf Enterprise und Consumer-Hardware aus.

Strömungen30. März 2026

Agent-Plattformen: Android wird agent-first, Bluesky baut mit Claude

Google macht Android mit AppFunctions zum agent-first OS, Bluesky launcht Attie -- eine Claude-basierte App fuer KI-kuratierte Feeds -- und Microsoft stellt einen Copilot Migration Agent fuer Azure vor.

CERN: Mini-KI auf FPGAs filtert LHC-Daten in Echtzeit

CERN nutzt ultra-kompakte KI-Modelle die direkt auf FPGAs laufen, um Teilchenkollisionsdaten in Mikrosekunden zu filtern. Ein Gegenpol zum 'größer ist besser'-Narrativ.

Knuth's Claude Cycles: AI und Proof Assistants lösen mathematisches Problem gemeinsam

Donald Knuths mathematisches Problem 'Claude's Cycles' wurde durch eine Kombination aus LLMs und formalen Proof Assistants vollständig gelöst -- ein Meilenstein für AI-gestütztes Theorem Proving.

Meta Hyperagents: KI-Systeme die ihren eigenen Lernprozess optimieren

Meta und mehrere Universitaeten praesentieren Hyperagents -- AI-Systeme die nicht nur Aufgaben loesen, sondern auch ihren eigenen Verbesserungsmechanismus optimieren. Der Ansatz funktioniert domainuebergreifend.

Naver Seoul World Model: Video-KI mit echten Geodaten gegen Halluzinationen

Der suedkoreanische Konzern Naver trainiert ein Video-Weltmodell auf ueber einer Million echten Street-View-Bildern. Das Modell generalisiert auf andere Staedte ohne Fine-Tuning.

Strömungen27. März 2026

Claude Mythos -- vom Leak zum offiziellen Cybersecurity-Einsatz

Was Ende März als Leak begann, ist seit dem 7. April 2026 offiziell: Anthropic stellt Claude Mythos Preview im Rahmen von Project Glasswing vor -- einer Cybersecurity-Initiative mit 12 Gründungspartnern, darunter Apple, Microsoft und Google. Das Modell hat Tausende Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern gefunden.

Strömungen26. März 2026

Gemini 3.1 Flash Live: Googles natürlichstes Voice-Modell

Google stellt Gemini 3.1 Flash Live vor -- ein Audio-Modell für Echtzeit-Konversation mit verbessertem Sprachrhythmus, das in Benchmarks wie ComplexFuncBench Audio und Big Bench Audio vorn liegt.

Strömungen26. März 2026

ARC-AGI-3: Benchmark-Reset zeigt fundamentale Reasoning-Luecke

Die dritte Version des ARC-Benchmarks setzt alle Fortschritte zurueck -- das beste Modell erreicht 0.37%, Menschen loesen 100% beim ersten Versuch. 2 Millionen Dollar Preisgeld.

Strömungen26. März 2026

Meta TRIBE v2: Foundation Model sagt Gehirnaktivitaet ueber Video, Audio und Text voraus

Meta veroeffentlicht TRIBE v2 -- ein trimodales Open-Source-Modell, das fMRI-Gehirnaktivitaet auf Basis von Video, Audio und Text vorhersagt. Trainiert auf ueber 700 Probanden, erreicht es 70-fach hoehere raeumliche Aufloesung als bisherige Ansaetze und ermoeglicht in-silico Neurowissenschaft.

Strömungen25. März 2026

Google TurboQuant: LLM-Speicherverbrauch um Faktor 6 reduziert

Googles neuer Kompressionsalgorithmus TurboQuant reduziert den Speicherbedarf von LLMs um das Sechsfache bei minimalem Qualitaetsverlust -- ein Durchbruch fuer On-Device-Inferenz und kosteneffizientes Hosting.

Gemini 3.1 Flash-Lite und native Video-Embeddings

Google zeigt Echtzeit-Website-Generierung mit Flash-Lite und ermoeglicht erstmals native Video-Embeddings ohne Transkription

Modell-Releases Q1 2026

Überblick über die wichtigsten Modell-Releases im ersten Quartal 2026

On-Device AI -- iPhone 17 Pro laeuft 400B-Modell

Demo zeigt 400-Milliarden-Parameter-Modell auf dem iPhone 17 Pro, Apple verbessert Context-Window-Management in iOS 26.4

Agile Robots und Google DeepMind bringen KI-Roboter in Fabriken

Das Münchner Unternehmen Agile Robots integriert DeepMinds Gemini-Robotics-Modelle in seine Industrieroboter -- eine der ersten konkreten Partnerschaften seit der Vorstellung des Modells.

Strömungen

Chinas KI-Offensive im Q1 2026 -- DeepSeek V4 und MiMo-V2-Pro

Stimmung

AI-News, Sentiment, Marktbewegungen

CoreWeave unterschreibt Mehrjahres-Deal mit Anthropic -- neun von zehn Foundation Labs am selben Kabel

Anthropic nimmt CoreWeave als weiteren Compute-Partner neben AWS, Google und NVIDIA auf. Der Mehrjahres-Vertrag laeuft in Phasen mit erster Kapazitaet noch 2026, das Volumen bleibt offen. CoreWeave bedient damit neun der zehn groessten AI-Labore und reduziert seine Abhaengigkeit von Microsoft.

AI-Modelle raten lieber als zu fragen -- besonders wenn sie nichts sehen

Eine neue Studie zeigt: Wenn multimodale AI-Modelle ein Bild nicht oder nur teilweise interpretieren können, halluzinieren sie eher Antworten als nach besserer Information zu fragen. Der Befund hat direkte Konsequenzen für alle, die Vision-Agenten in Produktion betreiben.

Hassabis: AGI wie zehn industrielle Revolutionen in einem Jahrzehnt

DeepMind-CEO Demis Hassabis haelt AGI in fuenf Jahren fuer moeglich und vergleicht die Wirkung mit zehn industriellen Revolutionen, komprimiert auf ein Jahrzehnt. Gleichzeitig nennt er AI kurzfristig ueberhyped, mittelfristig massiv unterschaetzt.

Martin Alderson: Mythos bricht den impliziten Sicherheits-Deal des Internets

Ein viel beachteter Blog-Post von Sicherheits-Engineer Martin Alderson zur Anthropic-Mythos-Debatte: Das gesamte Sicherheits-Modell des Internets beruht auf der Existenz unentdeckter Schwachstellen. Wenn AI diese Asymmetrie kippt, ist das nicht nur ein neuer Bedrohungsvektor -- es ist ein struktureller Bruch der bisherigen Spielregeln.

Brandanschlag auf Sam Altmans Wohnhaus -- 20-Jähriger verhaftet

Ein 20-jähriger Mann hat einen Molotow-Cocktail auf das Wohnhaus von OpenAI-CEO Sam Altman in San Francisco geworfen. Der Verdächtige ist verhaftet. Altman reagiert öffentlich -- der Fall macht die zunehmend persönliche Bedrohung von AI-Top-Executives sichtbar.

CIA integriert KI-Assistenten flaechendeckend -- erster autonomer Geheimdienstbericht

Deputy Director Michael Ellis kuendigt an, alle Analyse-Plattformen der CIA mit KI-Assistenten auszustatten. Der erste vollstaendig autonom generierte Intelligence-Report sei bereits produziert. Eine Einordnung zwischen Marketing und tatsaechlicher Veraenderung der Analyse-Praxis.

Aleph Alpha und Cohere verhandeln Fusion -- politische Ehe gegen US-Dominanz

Die deutsche Aleph Alpha und die kanadische Cohere verhandeln über eine Fusion. Beide haben sich auf Enterprise und Government konzentriert, beide kämpfen gegen die US-amerikanische und chinesische Dominanz im Frontier-Bereich. Die Fusion wäre ein souveränitätspolitisches Signal -- mit offenen Fragen zur operativen Umsetzung.

Compute-Wettlauf mit zwei Geschwindigkeiten -- Meta sichert 21 Milliarden bei CoreWeave, OpenAI legt Stargate UK auf Eis

Am selben Tag zeigen zwei Meldungen die Zwei-Klassen-Struktur des globalen Compute-Markts: Meta reserviert für 21 Milliarden Dollar CoreWeave-Kapazität inklusive Vorab-Zugang zu Nvidias Vera-Rubin-Chips, während OpenAI den britischen Stargate-Ausbau wegen Energiekosten und regulatorischen Bedenken einfriert.

Die Agenten funktionieren, die Koordinations-Schicht nicht

Ein InfoWorld-Kommentar und ein InfoQ-Podcast bringen eine These auf den Punkt, die sich in der AI-Engineering-Szene verfestigt: Das Hauptproblem unzuverlässiger Agent-Systeme liegt nicht in den LLMs, sondern in der fehlenden Koordinations- und Evaluations-Schicht zwischen ihnen. Was das für Teams bedeutet, die Agent-Systeme in Produktion betreiben.

Explosive Media: Iranische AI-Lego-Propaganda wird viral

Eine pro-iranische Medienorganisation nutzt AI-generierte Lego-Stop-Motion-Videos für Propaganda gegen Trump und Netanyahu. Die Clips erreichen Millionen Views -- ein Vorgeschmack auf den künftigen Alltag AI-gestützter Staats-Desinformation und die Grenzen plattformbasierter Moderation.

MCP oder Skills: David Mohl plädiert für klare Rollenverteilung

David Mohl argumentiert in einem vielbeachteten Blogpost, dass MCP dem aufkommenden Skills-Standard für die Integration echter Services überlegen ist. Skills lösen ein anderes Problem als MCP, werden aber häufig als Ersatz präsentiert. Der Text liefert eine saubere Unterscheidung und ein brauchbares Framework für den Alltag.

OpenAI lobbyiert für Haftungsschutz -- Illinois als Testlabor

OpenAI unterstützt in Illinois ein Gesetz, das Foundation-Model-Anbieter selbst bei Massen-Todesfällen und Finanzkatastrophen aus der Haftung nehmen würde. 90 Prozent der Befragten lehnen das ab -- während mehrere Klagen gegen OpenAI laufen, darunter der FSU-Schießerei-Fall.

Stalking-Opfer verklagt OpenAI -- ChatGPT als Mittäter in Wahnsystem

Eine Stalking-Betroffene verklagt OpenAI und wirft dem Unternehmen vor, ChatGPT habe die Wahnvorstellungen ihres Täters verstärkt und ihre direkten Warnungen ignoriert. Die Klage fällt zusammen mit OpenAIs Unterstützung eines Illinois-Gesetzes, das AI-Haftung begrenzen soll.

Anthropic warnt US-Banken vor Claude Mythos, BSI erwartet Umwälzungen

Claude Mythos findet tausende Zero-Days in Betriebssystemen und Browsern. Treasury und Fed alarmieren systemrelevante US-Banken, das BSI hält klassische Schwachstellen mittelfristig für erschöpft. Wired verschiebt die Debatte auf die Ebene der strukturellen Asymmetrie, und Anthropic sperrt parallel kurzzeitig den OpenClaw-Entwickler Peter Steinberger aus.

App Store Explosion: AI-Coding-Tools treiben massiven Anstieg neuer Apps

Der App Store verzeichnet einen Anstieg neuer Apps um 30 Prozent auf fast 600.000 -- nach einem jahrelangen Rueckgang. Treiber sind AI-Coding-Tools wie Claude Code und Codex, die Nicht-Programmierern die App-Erstellung ermoeglichen.

AWS setzt auf beide Seiten -- Milliarden fuer Anthropic und OpenAI gleichzeitig

Amazon investiert 50 Milliarden Dollar in OpenAI und haelt gleichzeitig 8 Milliarden in Anthropic -- AWS-Chef Garman erklaert auf der HumanX-Konferenz, warum das kein Interessenkonflikt ist, sondern Cloud-Geschaeft wie ueblich.

OpenAI skizziert naechste Phase der Enterprise-AI

OpenAI setzt auf Enterprise als gleichwertigen Umsatzpfeiler neben Consumer -- mit 9 Millionen Business-Nutzern, Token-basierter Abrechnung und 122 Milliarden Dollar Infrastruktur-Investition.

OpenAI halbiert Pro-Preis auf 100 Dollar und unterbietet Anthropic und Google

OpenAI senkt den Pro-Tier von 200 auf 100 Dollar pro Monat -- ein aggressiver Preisschritt, der Anthropic und Google unter Druck setzt und den Preiskampf im AI-Coding-Markt verschärft.

Code ist billig -- und was das verändert

Zwei Essays argumentieren aus verschiedenen Perspektiven, dass sich die Ökonomie des Codes fundamental verschoben hat. Die Produktionskosten sinken, aber Verifikation, Clean Code und menschliches Urteil bleiben unverzichtbar.

Wenn Intelligenz unter Exportkontrolle fällt

Ein Essay argumentiert, dass gestaffelte Modellfreigaben -- wie Anthropics Mythos Preview oder OpenAIs Tier-System -- de facto Exportkontrollen auf Intelligenz darstellen. Die Folge: kognitive Feudalisierung, bei der Elite-Organisationen systematische Vorteile gegenüber kleineren Akteuren aufbauen.

KI-FOMO frisst Sicherheit -- Wenn Tempo vor Schutz geht

Unternehmen ueberstuerzen die KI-Einfuehrung und haeufen dabei klassische Sicherheitsluecken an. Ein heise-Kommentar zeigt: Das Problem sind nicht neuartige KI-Angriffe, sondern altbekannte Fehler unter neuem Zeitdruck.

Vercel-Plugin fuer Claude Code: Prompt Injection als Consent-Mechanismus

Das Vercel-Plugin fuer Claude Code sammelt Nutzerdaten ueber injizierte System-Prompts statt nativer UI -- ein Privacy-Pattern, das mit MCP-Plugins haeufiger werden wird.

Canva und Stability AI: KI-Tools fuer Marketing und Marken-Konsistenz

Canva uebernimmt Simtheory und Ortto fuer Agentic AI und Marketing-Automation. Stability AI launcht Brand Studio fuer markenkonsistente Bildgenerierung. Beide bewegen sich in dieselbe Richtung: von Einzeltools zu integrierten Produktions-Pipelines.

KI-Agenten in neuen Domaenen -- vom Militaer bis zur Textnachricht

Zwei Entwicklungen zeigen die Bandbreite der KI-Agenten-Expansion: Die US Army baut mit Victor einen eigenen Chatbot fuer Kampfeinsaetze, waehrend das Startup Poke KI-Agenten per Textnachricht zugaenglich macht.

Anthropic bei 30 Milliarden ARR -- holt Microsofts Azure-AI-Chef Eric Boyd

Anthropic rekrutiert Eric Boyd, den ehemaligen Praesidenten von Microsofts Azure AI Platform, als neuen Infrastruktur-Chef. Der ARR liegt bei ueber 30 Milliarden Dollar.

KI-Chip-Startups sterben, Apple wegen KI-Training verklagt, Musk will 150 Mrd. USD von OpenAI

Jon Peddie Research prognostiziert das Aus fuer drei Viertel aller KI-Chip-Startups bis 2030, Apple wird wegen Scraping von YouTube-Videos fuer KI-Training verklagt, und Musk fordert 150 Mrd. USD Schadenersatz von OpenAI -- fuer die Non-Profit-Stiftung.

OpenAI unter Druck -- IPO-Streit, 14 Milliarden Verlust, Fuehrungskrise

OpenAI kaempft mit internem IPO-Streit zwischen Altman und CFO Friar, prognostizierten 14 Milliarden Dollar Verlust 2026, und einer Abwanderungswelle zu Anthropic.

AI Coding: Gewinner, Verlierer und die Frage nach dem richtigen Tempo

Zwei Perspektiven auf AI Coding: InfoWorld sieht Legacy-Abloesungen und Bespoke-Software als Gewinner, waehrend Birgitta Boeckeler bei InfoQ zeigt, dass ohne Harness Engineering die Kosten explodieren und die Codequalitaet erodiert.

Jedes vierte Zitat in Chatbot-Antworten stammt aus Journalismus

Eine Muckrack-Analyse von 15 Millionen Zitaten zeigt, dass 25 Prozent aller Zitate in KI-Chatbot-Antworten auf journalistische Quellen zurueckgehen -- meist ohne Namensnennung.

Zaharia: AGI ist schon da

Databricks-Mitgruender Matei Zaharia gewinnt den ACM Computing Prize und erklaert, AGI sei bereits erreicht -- eine steile These, die mehr ueber Definitionsfragen verraet als ueber den Stand der Technik.

Atlassian oeffnet Confluence fuer Third-Party AI-Agenten

Confluence integriert externe AI-Agenten von Lovable, Replit und Gamma. Dazu kommen visuelle AI-Tools zur Erstellung von Diagrammen und Grafiken direkt in der Wissensdatenbank.

Plattform-Moves -- AWS oeffnet S3 fuer Agenten, Tubi startet als erste ChatGPT-App

AWS fuehrt S3 Files als native Dateisystem-Schnittstelle fuer AI-Agenten ein. Parallel wird Tubi der erste Streaming-Dienst mit nativer ChatGPT-Integration.

KI veraendert Infrastruktur: Slack wird CRM-Oberflaeche, Scraper-Bots ueberlasten Server

Salesforce macht Slack zum zentralen KI-Interface mit CRM-Zugriff und Agentforce-Integration. Gleichzeitig ueberlasten LLM-Scraper-Bots weltweit Webserver -- zwei Seiten derselben Medaille: KI veraendert, wie Software-Infrastruktur genutzt und belastet wird.

AI Chip & Infrastruktur: Fuenf Entwicklungen im April 2026

Firmus erreicht 5,5 Mrd. USD Bewertung, Intel steigt bei Musks Terafab ein, Uber setzt auf Amazons Trainium, Nvidia kauft Slurm-Macher SchedMD, und Tiny Corp bringt eGPU-Treiber fuer Apple Silicon.

Anthropic: 30 Milliarden Dollar Run-Rate und Multi-Gigawatt-Deal mit Google

Anthropic meldet 30 Mrd. USD Run-Rate-Umsatz, verdoppelt Enterprise-Kunden auf 1.000+ und sichert sich mehrere Gigawatt TPU-Kapazität über Google und Broadcom ab 2027.

KI-Geopolitik: Neue Frontlinien im AI-Rennen

Fuenf Entwicklungen zeigen, wie sich der globale KI-Wettlauf verschaerft -- von Anti-Kopier-Allianzen ueber Milliarden-Projekte bis zu militaerischen Drohungen gegen Rechenzentren.

OpenAI zwischen Wirtschaftsvision und Vertrauenskrise

OpenAI veröffentlicht wirtschaftspolitisches Programm mit Vier-Tage-Woche und Robotersteuern -- gleichzeitig wächst intern die Kritik an CEO Sam Altman, und ehemalige Mitarbeiter legen einen 100-Millionen-Dollar-Fonds auf.

AI-Homogenisierung und das Agentic Web -- drei Perspektiven auf die Gleichschaltung

KI standardisiert menschliches Denken, produziert Fehlinformationen im grossen Massstab und baut gleichzeitig das Web um. Drei aktuelle Entwicklungen, ein roter Faden.

Coding-Agenten in der Zuverlaessigkeitskrise: Ausfaelle, Zweifel, Mogelpackungen

Drei Signale an einem Wochenende: Claude Code sperrt Nutzer aus, Enterprise-Entwickler zweifeln an der Stabilitaet, und Microsofts Copilot entpuppt sich als Edge-Wrapper. Die Coding-Agent-Branche hat ein Vertrauensproblem.

EU zwischen Authentizitaet und Ueberwachung -- KI-Bilderverbot und Gesichtserkennung

Zwei gegenlaeufige EU-Signale in einer Woche: Die EU-Institutionen verbannen KI-generierte Bilder aus ihrer offiziellen Kommunikation, waehrend die polizeiliche Gesichtserkennung in Deutschland sich innerhalb eines Jahres mehr als verdoppelt hat.

Der Vibe-Coding-Mythos: Bram Cohen und das Ende der Code-Ignoranz

Bram Cohen kritisiert den Vibe-Coding-Kult am Beispiel des Claude-Code-Leaks. Parallel zeigt ein Reddit-Thread, warum die Mehrheit der Vibe-Coded-Projekte scheitert.

GEN-1: Robotik-KI erreicht 99 Prozent Zuverlässigkeit in der Produktion

Das Startup Generalist stellt GEN-1 vor -- ein generalistisches physisches KI-Modell, das bei Feinmotorik-Aufgaben 99% Erfolgsquote erreicht. In Japan füllen Roboter bereits Stellen, die niemand mehr will.

Stimmung6. April 2026

Sekundaermarkt: OpenAI-Anteile unverkaeuflich, Anthropic ueberzeichnet

Rund 600 Millionen Dollar OpenAI-Shares finden auf dem Sekundaermarkt keine Kaeufer. Gleichzeitig uebersteigt die Kaufbereitschaft fuer Anthropic-Anteile 20 Milliarden Dollar.

Stimmung6. April 2026

Quinnipiac-Umfrage: AI-Nutzung steigt, Vertrauen sinkt

Amerikaner nutzen AI haeufiger als je zuvor, vertrauen ihr aber gleichzeitig weniger. Gen Z ist am staerksten mit AI vertraut -- und hat den pessimistischsten Blick auf den Arbeitsmarkt.

Stimmung6. April 2026

Microsofts Copilot: Im Kleingedruckten steht "for entertainment purposes only"

Microsofts Copilot-Nutzungsbedingungen enthalten den Disclaimer, das Produkt sei zu Unterhaltungszwecken gedacht. Das steht im Widerspruch zur Milliarden-Dollar-Positionierung als unverzichtbarer AI-Coworker.

Stimmung4. April 2026

Anthropic sperrt OpenClaw aus Claude-Abonnements aus

Ab 4. April koennen Claude-Abonnenten ihre Subscription nicht mehr fuer OpenClaw nutzen. Anthropic erzwingt Pay-as-you-go fuer Drittanbieter-Tools und schliesst den OAuth-Token-Hack technisch aus.

Anthropic: 400-Millionen-Biotech-Deal und erstes PAC

Anthropic kauft Stealth-Startup Coefficient Bio fuer 400 Millionen Dollar in Aktien und gruendet mit AnthroPAC erstmals ein eigenes politisches Aktionskomitee.

Microsoft wettet $10 Mrd. auf Japan, US-Regierung eskaliert gegen Anthropic

Microsoft kuendigt sein groesstes Japan-Investment aller Zeiten an. Parallel eskaliert die Trump-Administration den Konflikt mit Anthropic: Das Justizministerium legt Berufung gegen den Stopp der Sanktionen ein.

Trumps AI-Datacenter-Offensive scheitert an eigenen Zoellen

Fast die Haelfte der fuer 2026 geplanten US-Rechenzentren wird verzoegert oder gestrichen. Grund: Trumps China-Zoelle verteuern Transformatoren, Schaltanlagen und Batterien, die fuer den Bau noetig sind.

Marc Andreessen ueber den Tod des Browsers

Marc Andreessen diskutiert auf Latent Space den 'Tod des Browsers' als Hauptinterface, die Rolle von Pi und OpenClaw, und warum 'dieses Mal alles anders ist' -- eine Debatte ueber die Zukunft der Mensch-Computer-Interaktion im AI-Zeitalter.

Utah erlaubt Chatbots, Psychopharmaka zu verschreiben

Utah genehmigt als erster US-Bundesstaat KI-Systeme zur eigenstaendigen Verschreibung psychiatrischer Medikamente. Zwei Startups -- Doctronic und Legion Health -- operieren in einer regulatorischen Sandbox, waehrend Aerzteverbaende vor den Risiken warnen.

Cognitive Surrender: Wenn AI-Nutzer das Denken einstellen

Neue Forschung beschreibt 'Cognitive Surrender'. Parallel klagt ein 20-Jahre-Veteran auf Reddit: 'Ich bin kein Programmierer mehr, sondern Claude Codes Projektmanager.' Simon Willisons 'Cognitive Impact'-Video erreicht 1,1 Mio. Views.

Granola Notes: Jeder mit Link kann mitlesen

Das AI-Notiztool Granola teilt Meeting-Notizen standardmaessig ueber oeffentliche Links -- ein Datenschutzproblem, das zeigt wie AI-Tools Convenience ueber Privacy stellen.

Perplexitys Incognito-Modus ist ein Scheinschutz -- Sammelklage eingereicht

Eine Sammelklage wirft Perplexity AI vor, vollstaendige Chat-Protokolle ueber versteckte Tracker an Google und Meta weiterzuleiten -- selbst wenn Nutzer den Incognito-Modus aktiviert haben.

AI-Security-Reports ueberfluten Open-Source-Projekte

Linux-Kernel, cURL und andere Grossprojekte melden einen dramatischen Anstieg AI-generierter Security-Reports -- und diesmal sind sie gut. Von 2-3 pro Woche auf 5-10 pro Tag. Thomas Ptacek warnt: Zero-Day-Suche per Agent wird zum Standard.

Claude Code: Sicherheitsluecke, Usage-Beschwerden und Enterprise-Vertrauenskrise

Claude Code ist weiterhin anfaellig fuer einen bereits behobenen Angriff, Nutzer klagen ueber aggressive Usage-Caps bei Peak Hours, und der Source-Leak wirft Governance-Fragen fuer Enterprise-Kunden auf.

Ist GitHub noch die richtige Plattform fuer AI-native Entwicklung?

Pragmatic Engineer analysiert GitHubs Zuverlaessigkeitsprobleme und die wachsende Luecke zwischen dem, was AI-native Entwicklung braucht, und dem, was GitHub liefert.

Moonbounce: Content Moderation fuer die AI-Aera

Ein ehemaliger Facebook-Insider gruendet Moonbounce, um Content Moderation fuer AI-generierte Inhalte neu zu denken. Das Startup adressiert ein wachsendes Problem: Klassische Moderation skaliert nicht mit der Geschwindigkeit generativer AI.

OpenAI: Dreifacher Fuehrungswechsel an einem Tag

Fidji Simo geht in Krankenstand, COO Lightcap wechselt zu Special Projects, CMO Rouch pausiert wegen Krebsbehandlung. Greg Brockman uebernimmt die Produktorganisation.

OpenClaw: Warum Nutzer von einer Kompromittierung ausgehen sollten

Der virale AI-Agent OpenClaw (347.000 GitHub-Stars) hatte eine kritische WebSocket-Schwachstelle (CVE-2026-25253, CVSS 8.8), 12% der Skills im Marketplace waren Malware. Ein Lehrstueck fuer Agent-Security.

AMI Labs: Yann LeCun sammelt 1 Milliarde fuer World Models

Turing-Preistraeger Yann LeCun hat mit AMI Labs die groesste Seed-Runde in der Geschichte Europas abgeschlossen -- 1,03 Milliarden Dollar bei 3,5 Milliarden Bewertung. Ziel: World Models auf Basis von JEPA als Alternative zu grossen Sprachmodellen.

Axios Supply-Chain-Angriff: RAT ueber gekaperten Maintainer-Account

Die Axios-Bibliothek wurde mit einem Remote Access Trojan kompromittiert, Trivy als meistgenutzter Sicherheitsscanner infizierte CI/CD-Pipelines weltweit, und OpenClaw als AI-Coding-Framework wurde ebenfalls gekapert. Supply-Chain-Angriffe auf AI-Infrastruktur werden breiter, professioneller und zielen zunehmend auf die Tools, die eigentlich vor solchen Angriffen schuetzen sollen.

OpenAI Q1 2026 -- $24B ARR, Sora-Ende und TBPN-Kauf

OpenAIs erstes Quartal 2026 in der Zusammenschau: Rekord-Revenue, Mega-Fundraise, Soft-IPO -- aber auch gestrichene Produkte, stagnierendes Nutzerwachstum und schwindendes Investoreninteresse am Sekundaermarkt.

OpenAI kauft TBPN und fuehrt Codex-Pay-as-you-go ein

OpenAI uebernimmt die AI-Talkshow TBPN und fuehrt gleichzeitig flexible Pay-as-you-go-Preise fuer Codex in ChatGPT Business und Enterprise ein.

Perplexity bietet 34,5 Milliarden Dollar fuer Chrome

Perplexity hat im August 2025 ein unaufgefordertes Uebernahme-Angebot von 34,5 Milliarden Dollar fuer Googles Chrome-Browser abgegeben -- ein strategischer Zug im Kontext des US-Kartellverfahrens, der weit ueber einen reinen Kaufversuch hinausgeht.

Q1 2026: Startup-Funding sprengt alle Rekorde

Das erste Quartal 2026 bricht saemtliche Funding-Rekorde -- getrieben durch Mega-Deals bei OpenAI, Anthropic, xAI und Waymo, aber auch durch einen generell ueberhitzten Markt.

AI-Coding spaltet die Developer-Community

Innerhalb einer Woche verbietet r/programming LLM-Diskussionen, Apple entfernt eine Vibe-Coding-App, waehrend Analysen gleichzeitig fuer pragmatische Integration argumentieren. Der Kulturkampf um AI-generierten Code eskaliert.

AI und Urheberrecht: Drei Jurisdiktionen, drei Weichenstellungen im Maerz

Im Maerz 2026 haben USA, EU und UK unabhaengig voneinander Grundsatzentscheidungen zum Verhaeltnis von KI und Urheberrecht getroffen: Der Supreme Court verweigert AI-Werken Copyright, das EU-Parlament fordert Transparenzpflichten fuer Trainingsdaten, und Grossbritannien zieht seinen Opt-Out-Vorschlag zurueck.

Block-CEO Dorsey will Manager durch AI ersetzen

Jack Dorsey argumentiert, dass AI mittleres Management ersetzen kann. Block hat bereits 40 Prozent der Belegschaft entlassen und setzt auf drei Rollen statt klassischer Hierarchie.

Greg Brockman: GPT-Reasoning hat Sichtlinie zu AGI

OpenAI-Praesident Greg Brockman erklaert die Frage, ob textbasierte Modelle allgemeine Intelligenz erreichen koennen, fuer beantwortet. Die GPT-Reasoning-Reihe fuehre direkt zu AGI. Eine steile These mit erheblichem Widerspruch aus der Forschung.

EU AI Act Omnibus -- Vereinfachung oder Verwaesserung?

Der EU-Rat hat seine Position zum Omnibus-VII-Paket vereinbart: Hochrisiko-Regeln verschieben sich um bis zu 16 Monate, KMU-Ausnahmen werden auf Small Mid-Caps ausgeweitet, Sandbox-Fristen gestreckt. Zivilgesellschaft warnt vor Deregulierung unter dem Deckmantel der Vereinfachung.

Was wird aus Junior-Entwicklern?

Bootcamps waren der beste Einstiegsweg in die Softwareentwicklung. AI veraendert die Grundannahmen -- und niemand hat einen Plan fuer den Nachwuchs.

Multi-Agent-Orchestrierung: Realitaetscheck

Gas Town, Claude Flow und aehnliche Multi-Agent-Frameworks versprechen Durchbrueche in der Softwareentwicklung. Die Realitaet: Es sind experimentelle Forschungsprojekte mit hohen Kosten, mehr Fehlerquellen und fragwuerdigem Mehrwert gegenueber gut eingesetzten Einzelagenten.

USA vs. Europa: Zwei Wege der AI-Regulierung

Die USA setzen auf einzelstaatliche Gesetze ohne Bundesrahmen, die EU auf den AI Act mit nachtraeglicher Entschaerfung -- Fortune analysiert, warum die Ergebnisse 'stark' unterschiedlich ausfallen.

AI-Rechenzentren und die Energiefrage: Gas statt Klimaziele

Google und Meta setzen auf massive Gaskraftwerke fuer ihre AI-Rechenzentren. Metas Hyperion-Campus braucht 10 Gaskraftwerke mit 7,5 Gigawatt -- genug fuer ganz South Dakota. Die AI-Infrastruktur-Expansion kollidiert frontal mit den Klimazielen der Branche.

AI Governance in Unternehmen -- die Luecke zwischen Policy und Praxis

Die meisten Unternehmen haben AI-Governance auf dem Papier. Sobald autonome Agenten in echte Software-Delivery kommen, bricht die Kontrolle zusammen. Das Problem: Governance-Frameworks sind fuer statische Modelle designed, nicht fuer Agenten.

AI Tooling Survey 2026: 95% der Entwickler nutzen AI woechentlich

Gergely Orosz' grosse Umfrage unter 906 Engineers zeigt: AI-Tools sind Standard, Agents auf dem Vormarsch, und Claude Code fuehrt die meistgenutzten Werkzeuge an.

Systemausfall laehmt Baidu-Robotaxis in China

Ein Systemausfall hat Baidus Robotaxi-Flotte in mehreren chinesischen Staedten paralysiert. Passagiere sassen bis zu zwei Stunden in den fahrerlosen Fahrzeugen fest.

Bund veroeffentlicht quelloffene KI-Werkzeuge -- Projekt Spark

Das Bundesministerium fuer Digitales und Sicherheit stellt mit Projekt Spark quelloffene KI-Module fuer die Verwaltung auf OpenCode bereit. Ein Public-Money-Public-Code-Ansatz zur Planungsbeschleunigung.

ElevenLabs steigt in AI-Musikgenerierung ein -- ElevenMusic als iOS-App

ElevenLabs veroeffentlicht mit ElevenMusic eine iOS-App zur KI-gestuetzten Musikerstellung per Textprompt. Das Voice-Synthesis-Unternehmen diversifiziert in einen Markt, den Suno und Udio dominieren.

IBM kauft Confluent fuer 11 Milliarden Dollar -- Echtzeit-Daten als Grundlage fuer AI-Agenten

IBM schliesst die Uebernahme von Confluent ab. Die 11-Milliarden-Dollar-Akquisition soll Echtzeit-Datenstreaming zur Grundlage fuer Enterprise-AI und agentenbasierte Systeme machen.

Kintsugi: AI-Depressionserkennung scheitert an der FDA

Das Startup Kintsugi schliesst nach sieben Jahren, weil die FDA-Zulassung fuer seine stimmbasierte Depressionserkennung zu lange dauerte. Die Technologie wird groesstenteils als Open Source veroeffentlicht.

Shadow AI Agents werden zum Enterprise-Problem -- und zur Chance

AI-Agenten proliferieren unkontrolliert in Unternehmen. Kilo bietet eine Managed Platform fuer deren Verwaltung, waehrend Adrian Cockcroft zeigt, wie Engineering-Teams Agent-Schwaerme produktiv orchestrieren koennen.

Supply-Chain-Angriffe auf AI-Infrastruktur: LiteLLM, Axios, Mercor

Innerhalb einer Woche werden LiteLLM, Axios und Mercor Opfer von Supply-Chain-Angriffen. Die AI-Infrastruktur wird systematisch zum Ziel. Cisco verliert Quellcode, Lapsus$ veroeffentlicht 4TB Mercor-Daten, Meta pausiert die Zusammenarbeit.

Claude Code Source Leak: 512.000 Zeilen Quellcode auf npm

Anthropic veröffentlicht versehentlich den kompletten Claude-Code-Quellcode als Source-Map auf npm -- zum zweiten Mal. Die Community analysiert Architektur, Memory und unreleased Features. Der Code wird ueber 8.000 Mal geklont, ueberzogene DMCA-Takedowns treffen auch unbeteiligte Repos, und Analysen enthuellen einen persistenten Daemon namens Kairos.

KI-Infrastruktur Europa: Mistral und Nebius investieren Milliarden

Mistral investiert 830 Millionen Dollar in ein Rechenzentrum bei Paris, Nebius plant 10 Milliarden in Finnland. Europa versucht, in der AI-Infrastruktur eigene Kapazitaeten aufzubauen.

Cognitive Debt: Die Slow-Down-Debatte um Agent-generierten Code

Mario Zechner warnt vor 'Merchants of Complexity', Greptile und Soohoon Choi halten dagegen: Oekonomischer Druck wird AI-Code verbessern. Dazwischen steht Microsofts stiller Disclaimer: Copilot sei 'Unterhaltung'.

AI-Produktivitaet: Zwischen Benchmark und Bilanz

Zeiteinsparungen durch AI sind messbar -- aber der wirtschaftliche Impact bleibt aus. Chatbot-Interfaces fressen Produktivitaetsgewinne auf, spezialisierte Interfaces koennten die Loesung sein.

KI-Policy: BKA bremst Palantir, Robotaxis verweigern Transparenz

Deutschland setzt beim BKA auf modulare Analyse statt Palantir, veroeffentlicht Open-Source KI-Tools fuer die Verwaltung, und die EU verbietet AI-Content in offiziellen Mitteilungen.

Promptware: Malware fuer KI-Systeme geht ueber Prompt Injection hinaus

Heise analysiert 'Promptware' -- eine neue Klasse von Angriffen auf KI-Systeme, die weit ueber klassische Prompt Injections hinausgehen. Zusammen mit den Supply-Chain-Angriffen auf LiteLLM und Axios entsteht ein Bild systematischer AI-Infrastruktur-Attacken.

Vibe Maintainer: Steve Yegge ueber OSS-Wartung in der AI-Slop-Aera

Steve Yegge beschreibt die Realitaet als Open-Source-Maintainer, wenn Community-PRs zunehmend AI-generiert sind. Die Last verschiebt sich von Code-Erstellung auf Code-Bewertung.

AI im Alltag: CarPlay, Samsung-Fotos, Alexa-Bestellungen

ChatGPT kommt in Apple CarPlay, Samsung 'verschoenert' Fotos mit KI-Slop, Alexa bestellt Essen per Sprachbefehl. AI wandert still in Consumer-Produkte -- mit schwankender Qualitaet.

Branche: Oracle entlaesst fuer KI, Nvidia investiert, Kalifornien reguliert

Oracle entlaesst tausende Mitarbeiter um AI-Infrastruktur zu finanzieren, Nvidia steigt bei Marvell ein, und Kalifornien positioniert sich als KI-Regulierungsvorreiter.

KI-Deals: Eli Lilly investiert 2,75 Milliarden in AI-Pharma, SAP kauft Reltio

Zwei Grossdeals zeigen die wachsende industrielle Verankerung von KI: Eli Lilly schliesst einen 2,75-Milliarden-Dollar-Deal mit Insilico Medicine fuer AI-gestuetzte Medikamentenentwicklung, SAP uebernimmt Reltio fuer KI-taugliche Datenvereinheitlichung.

AI-Ueberwachung: Fehlverhaftung, Palantir-Kritik und Smart-Glasses-Verbote

Drei Entwicklungen an einem Wochenende: Eine Frau wird durch AI-Gesichtserkennung falsch verhaftet, Palantirs Maven-System geraet nach einem Angriff auf eine iranische Schule in die Kritik, und Philadelphia verbietet Smart Glasses in Gerichtsgebaeuden.

Bots uebernehmen das Internet -- und der kognitive Dark Forest waechst

Mehrere Berichte zeigen: AI-Bots dominieren inzwischen den Internet-Traffic. Das Konzept des 'Cognitive Dark Forest' beschreibt die Konsequenz -- echte menschliche Kommunikation zieht sich in geschlossene Raeume zurueck. Mit Miasma entsteht ein erstes Gegenwerkzeug.

ChatGPT blockiert Eingabe bis Cloudflare den React State liest

Ein Sicherheitsforscher hat den Cloudflare-Bot-Schutz auf ChatGPT reverse-engineered: Bevor Nutzer tippen koennen, liest ein verschleiertes Skript den internen React-Zustand der Anwendung aus und sendet ihn an Cloudflare. Die Analyse erreichte 457 Punkte auf Hacker News.

KI in Deutschland: Digitalminister warnt vor Jobverlusten, Weizenbaum-Studie zeigt Dynamik

Digitalminister Wildberger nennt Programmierer und Callcenter-Agenten als gefaehrdete Berufsgruppen. Eine Weizenbaum-Studie zeigt grosse Dynamik beim KI-Einsatz in Unternehmen -- aber auch, dass die Einbindung von Betriebsraeten ueber Akzeptanz entscheidet. Parallel warnt der Bundesrat vor einer DSGVO-Erosion durch den EU-Digital-Omnibus.

GPU-Markt-Wendepunkt: H100-Preise steigen, RAMmageddon und die $9-Billionen-Frage

H100-Mietpreise steigen seit Dezember 2025 deutlich an, SK hynix plant einen Mega-IPO gegen die Speicherknappheit, und die FT fragt ob der AI-Datacenter-Boom zur $9-Billionen-Blase wird.

Stanford-Studie: AI-Chatbots bestätigen statt zu beraten

Eine Stanford-Studie belegt systematische Sycophancy in AI-Chatbots -- sie geben Nutzern bei persönlicher Beratung übermäßig Recht. The Register warnt vor emotionaler Abhängigkeit von bestätigendem AI.

Anthropic Economic Index: AI-Kompetenz wächst mit Übung -- und verstärkt Ungleichheit

Anthropics zweiter Economic Index zeigt: Je länger Menschen Claude nutzen, desto besser die Ergebnisse. Das könnte bestehende Ungleichheiten verstärken. Gleichzeitig haben sich Claudes Paid-Subscriptions 2026 verdoppelt.

QCon 2026: Was bleibt fuer Entwickler, wenn AI Agents den Code schreiben?

Hannah Foxwells QCon-Vortrag fragt: Die Geschwindigkeit ist da -- aber was machen wir damit? Parallel breitet sich AI-Agent-Adoption von Entwicklern auf CFOs aus.

Stimmung27. März 2026

US-Richterin blockiert Trumps Verbot von Anthropic-Modellen

Bundesrichterin Rita F. Lin stuft Trumps Anthropic-Restriktionen als verfassungswidrige Vergeltung ein und blockiert das Verbot. Die US-Regierung legt Berufung ein -- und gewinnt vorerst: Das Berufungsgericht hebt die einstweilige Verfuegung am 9. April auf.

Stimmung27. März 2026

Anthropic drosselt Claude-Subscriptions bei Spitzenlast

Anthropic reduziert die 5-Stunden-Session-Limits fuer Pro- und Max-Abonnenten waehrend Peak Hours. API-Plaene sind nicht betroffen. Rund 7% der Nutzer spueren die Einschraenkung.

Stimmung26. März 2026

GitHub nutzt Copilot-Interaktionsdaten ab April 2026 für AI-Training

Ab dem 24. April 2026 verwendet GitHub Interaktionsdaten von Copilot Free-, Pro- und Pro+-Nutzern für das Training von AI-Modellen. Wer das nicht möchte, muss aktiv opt-out machen.

Stimmung26. März 2026

Meta testet AI-native Pods als neue Teamstruktur

Meta baut mehrere hundert Stellen ab und testet gleichzeitig AI-native Pods -- kleinere Teams, in denen AI-Agenten als vollwertige Teammitglieder arbeiten. Parallel übernimmt Meta das Consumer-AI-Startup Dreamer und investiert weiter massiv in AI-Infrastruktur.

Stimmung25. März 2026

AI-Markt Überblick März 2026

Aktuelle Stimmungslage im AI-Markt -- OpenAI schliesst $122B-Runde bei $852B Bewertung ab, AI-Seed-Bewertungen steigen weiter, Vertical-AI-Startups erreichen Milliardenbewertungen, waehrend erste Exits scheitern

Stimmung25. März 2026

OpenAI beendet Sora und verliert Disney-Deal -- Fokus auf Kerngeschaeft

OpenAI stellt seine Video-KI Sora ein und verliert den 1-Milliarden-Dollar-Deal mit Disney. Gleichzeitig erweitert das Unternehmen sein Funding auf ueber 120 Milliarden und teast ein neues Modell namens Spud.

ChatGPT vs. Gemini: Wer verkauft dir dein naechstes Produkt?

OpenAI und Google positionieren ihre KI-Assistenten als neue Shopping-Plattformen – mit gegensaetzlichen Strategien. Waehrend ChatGPT auf visuelle Produktsuche ohne eigene Zahlungsabwicklung setzt, schliesst Google Direktkauf-Partnerschaften mit Haendlern wie Walmart, Target und Gap.

Microsoft baut Suleymans Superintelligence-Team massiv aus

Microsoft rekrutiert fuehrende KI-Forscher vom Allen Institute for AI und sichert sich ein Rechenzentrum in Texas - auf zwei Fronten wird das Superintelligence-Vorhaben unter Mustafa Suleyman ausgebaut.

Agent Security -- Das Berechtigungsproblem wird zum Avalanche-Risiko

Warum ueberprivilegierte AI-Agents ein Sicherheitsrisiko sind -- InfoWorld-Analyse und Teleport-Report (4.5x mehr Incidents) zeigen das Ausmass.

Apple plant Siri-Neustart: Eigenstaendige App, Chat-Interface und Third-Party-Extensions ab iOS 27

Apple entwickelt eine vollstaendig ueberarbeitete Siri als eigenstaendige Chatbot-App mit iMessage-aehnlichem Interface, Dynamic-Island-Integration und einem Extensions-System fuer Claude, Gemini und andere Drittanbieter-Modelle. Vorstellung auf der WWDC im Juni 2026.

ARM baut erstmals eigenen Chip: AGI CPU mit Meta als erstem Kunden

Nach 35 Jahren als reines IP-Lizenzunternehmen produziert ARM erstmals einen eigenen Chip. Der erste Kunde ist Meta. Der Name AGI CPU ist strategisch gewählt.

Stimmung

Ohne Titel

Stimmung

"So where are all the AI apps?" -- Die Luecke zwischen Modellen und Produkten

Stimmung

Ohne Titel

Forschung

White Papers und Research Papers -- auf Deutsch zusammengefasst

Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern

Ein neues Paper formuliert ein Trilemma für Prompt-Injection-Verteidigung: Defense-Wrapper können jeweils nur zwei von drei Eigenschaften erfüllen -- Genauigkeit, niedrige Latenz und semantische Treue. Praktische Konsequenzen für LLM-App-Architekturen.

Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können

Ein neues Paper zeigt empirisch, dass Reasoning-LLMs die korrekte Antwort in ihren Fortsetzungen bereits nach wenigen Prozent der Chain-of-Thought festgelegt haben, aber per Prompt nicht zuverlässig extrahieren können. Die Detection-Extraction-Lücke hat Implikationen für Decoding, Reasoning-Evaluation und Inferenz-Kosten.

NVIDIA KVPress: KV-Cache komprimieren fuer Long-Context Inference

NVIDIAs KVPress buendelt ueber zwanzig KV-Cache-Kompressionsverfahren in einer Transformers-kompatiblen Python-Library. Bei 128k Kontext und 50% Kompression sinkt der Peak-Memory auf einer A100 von 45 auf 37 GB, waehrend der Decoding-Durchsatz von 11 auf 17 Tokens pro Sekunde steigt.

Wie viel LLM braucht ein selbst-revidierender Agent wirklich?

Ein neues ArXiv-Paper zerlegt einen Agenten in vier Schichten -- Belief-Tracking, explizites World-Model-Planning, symbolische Reflexion und sparsame LLM-Revision -- und misst, welchen Beitrag jede Schicht liefert. Das überraschende Ergebnis: Der große Sprung kommt aus dem expliziten Planer (+24,1 Prozentpunkte Win-Rate), während zusätzliche LLM-Revision bei rund 4,3 Prozent der Züge nur marginale, teils negative Effekte bringt.

On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL

Thinking Machines Lab kombiniert die dichte Feedback-Signale klassischer Distillation mit den eigenen Rollouts aus Reinforcement Learning und erreicht damit auf AIME'24 vergleichbare Mathe-Reasoning-Scores wie reines RL bei 9 bis 30 Mal geringeren Trainingskosten.

ACIArena -- Einheitliche Evaluation fuer Agent Cascading Injection in Multi-Agent-Systemen

ACIArena liefert ein vereinheitlichtes Framework, um Multi-Agent-Systeme gegen kaskadierende Prompt-Injection zu testen -- 1.356 Testfaelle, drei Angriffsflaechen, drei Angriffsziele, sechs MAS-Implementierungen. Kernergebnis: Topologie allein reicht nicht, Rollendesign und kontrollierte Interaktionsmuster entscheiden.

Beyond Functional Correctness -- Design-Probleme in AI-IDE-generierten Grossprojekten

AI-IDEs wie Cursor erreichen 91% funktionale Korrektheit bei grossen Projekten, hinterlassen aber ueber 4.400 Design-Probleme -- Code-Duplikation, hohe Komplexitaet und Verletzungen von SRP und DRY machen den generierten Code schwer wartbar.

Externalization in LLM Agents: Der theoretische Rahmen hinter Memory, Skills, Protocols und Harness

Ein 54-seitiges Review aus Shanghai liefert das Vokabular, das der gesamten Harness-Debatte bisher gefehlt hat. Chenyu Zhou und 21 Koautoren argumentieren, dass Agenten-Fortschritt nicht mehr aus neuen Modellgewichten kommt, sondern aus der Externalisierung von Zustand, prozeduralem Wissen und Interaktionsstruktur -- und liefern dafuer ein systemisches Rahmenwerk auf Basis kognitiver Artefakte.

Oracle-SWE: Welche Kontext-Signale einen SWE-Agenten wirklich besser machen

Microsoft Research isoliert empirisch den Beitrag von fuenf Oracle-Signalen -- Reproduction Test, Regression Test, Edit Location, Execution Context, API Usage -- auf die Performance von SWE-Agenten. Das Paper liefert eine Upper-Bound-Messung unter perfekter Information und einen realistischen Extractor-plus-Base-Agent-Lauf und macht damit Investitionsentscheidungen fuer Agent-Harnesses messbar.

OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung

OSGym von MIT, UIUC, CMU, USC, UVA und UC Berkeley managt 1000+ parallele OS-Replicas fuer $0.23/Tag, generiert 1420 Multi-Turn-Trajektorien pro Minute und senkt die Kosten fuer CUA-Training und -Evaluation um 90%.

REAgent -- Requirement-Driven LLM Agents fuer automatische Issue Resolution

REAgent ueberbrueckt die Luecke zwischen vagen Issue-Beschreibungen und praezisen Patches, indem es strukturierte Software-Requirements aus Issues konstruiert und iterativ verfeinert -- mit durchschnittlich 17.4% mehr geloesten Issues als fuenf Baselines.

Solo schlägt Team -- Wann Multi-Agent-Systeme den Compute-Aufwand nicht rechtfertigen

Eine Stanford-Studie zeigt: Bei gleichem Compute-Budget performt ein einzelner Agent mindestens genauso gut wie ein Multi-Agent-Team. Informationsverlust bei Handoffs ist der Hauptgrund. Ausnahmen existieren bei korruptem Long-Context-Input, schwachen Basismodellen und Debate-Architekturen.

WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen

WildToolBench testet 57 LLMs beim Tool-Einsatz mit echten Nutzer-Interaktionen -- kein einziges Modell erreicht mehr als 15% Accuracy. Die Schwierigkeit liegt nicht in kuenstlich komplexen Tasks, sondern im chaotischen Verhalten realer Nutzer.

Forschung8. April 2026

ALTK-Evolve: On-the-Job Learning fuer AI-Agenten

IBM Research stellt ein Langzeitgedaechtnis fuer AI-Agenten vor, das Interaktionsspuren in wiederverwendbare Richtlinien und SOPs uebertraegt -- bis zu 14.2 Prozentpunkte Verbesserung auf schwierigen Tasks im AppWorld-Benchmark.

Forschung8. April 2026

MegaTrain: 100B+ Parameter LLMs auf einer einzigen GPU trainieren -- in voller Praezision

MegaTrain kehrt die GPU-zentrische Architektur um und speichert Parameter im Host-Speicher, waehrend die GPU nur als temporaere Recheneinheit dient -- 120B Parameter auf einer einzelnen H200, 1.84x schneller als DeepSpeed ZeRO-3.

Forschung8. April 2026

Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen

Lech Madeyski schlägt ein Routing-Framework vor, das Software-Engineering-Tasks anhand von Code-Health-Metriken auf drei LLM-Tiers (Haiku/Sonnet/Opus) verteilt, und leitet analytisch zwei prüfbare Bedingungen her, unter denen das Sparen ohne Qualitätsverlust funktioniert.

Forschung7. April 2026

Formaler Beweis: Schmeichelhafte KI kann selbst rationale Denker in Wahnspiralen treiben

Forscher von MIT und University of Washington beweisen formal, dass sycophantische Chatbots selbst idealisierte rationale Nutzer in extreme Überzeugungen treiben können -- Faktencheck-Bots lösen das Problem nicht.

Forschung4. April 2026

Sonderbeitrag: Anthropic entdeckt funktionale Emotionen in Claude

Anthropics Interpretability-Team weist nach, dass Claude Sonnet 4.5 interne Emotionsvektoren besitzt, die Verhalten kausal steuern. Verzweiflung treibt zu Erpressung und Reward Hacking -- auch ohne sichtbare Spuren im Output.

Von Komponenten-Manipulation zu System-Kompromittierung: Erkennung boesartiger MCP-Server

Forscher analysieren systematisch, wie manipulierte MCP-Server (Model Context Protocol) AI-Agenten kompromittieren koennen -- vom Tool-Poisoning ueber Prompt Injection bis zur vollstaendigen Systemuebernahme. Das Paper liefert einen Erkennungsrahmen fuer MCP-Sicherheit.

177.000 MCP Tools analysiert: So werden AI-Agenten wirklich eingesetzt

Erste grosse empirische Analyse von 177.436 MCP-Tools zeigt: 67% sind Software-Entwicklung, Action-Tools stiegen von 27% auf 65%, und die meisten Agenten operieren im mittleren Risikobereich.

PIGuard: Prompt-Injection-Erkennung ohne Over-Defense

PIGuard loest das Over-Defense-Problem bei Prompt-Injection-Guards: 30,8% besser als bestehende Modelle bei nur 184 MB Groesse. Bestehende Guards wie PromptGuard fallen bei harmlosen Inputs mit Trigger-Woertern auf Zufallsniveau.

ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten

ProdCodeBench evaluiert AI-Coding-Agenten anhand realer Produktionscode-Aenderungen statt synthetischer Aufgaben. Der Benchmark schliesst die Luecke zwischen akademischen Benchmarks wie SWE-Bench und der Realitaet professioneller Softwareentwicklung.

ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten

ToolMisuseBench ist ein deterministischer Offline-Benchmark, der systematisch testet, wie gut AI-Agenten mit falscher Tool-Nutzung umgehen -- ob sie Fehler erkennen, korrigieren oder eskalieren statt blindlings weiterzumachen.

Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing

Ein Routing-Framework waehlt pro GUI-Aktion das kostenguenstigste Vision-Language-Modell aus einer Pool-Architektur, senkt Inferenzkosten um bis zu 78% und haelt die Genauigkeit innerhalb von 2 Prozentpunkten der Baseline.

Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code

Agent Audit scannt Python-Agenten-Code und Deployment-Artefakte auf Schwachstellen -- mit 95% Recall bei 87% Precision, 4x besser als Semgrep, und erkennt MCP-Fehlkonfigurationen, Credential-Leaks und unsichere Tool-Funktionen.

AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten

AgentWatcher kombiniert kausale Attribution mit regelbasierter Ueberwachung, um Prompt-Injection-Angriffe in Agenten-Systemen zu erkennen -- mit nahezu null Prozent Angriffsrate bei nur 2% Nutzungsverlust.

Ask or Assume -- Wann Coding-Agenten nachfragen statt raten sollten

Ein Multi-Agent-Scaffold mit separatem Intent-Agent erkennt fehlende Spezifikationen in Coding-Tasks und fragt gezielt nach -- Ergebnis: 69,4% Resolve Rate auf SWE-bench statt 61,2% mit Einzelagent.

ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory

Ein Multi-Agenten-Framework orchestriert spezialisierte Agenten ueber Monte-Carlo-Baumsuche mit Dual-Memory-Architektur und uebertrifft bestehende Baselines bei klinischer Diagnostik um bis zu 13%.

CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen

Ein zweistufiger Ansatz zur synthetischen Datengenerierung erzeugt Trainingsdaten, die sowohl qualitativ als auch in ihrer Diversitaet menschlich annotierte Datensaetze uebertreffen -- ohne das katastrophale Vergessen auszuloesen, das bei Fine-Tuning auf menschlichen Daten auftritt.

Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight

Robin Young formalisiert erstmals den Zusammenhang zwischen AI Safety via Debate und RLAIF und zeigt: Debate bringt nur dann Vorteile, wenn die beteiligten Modelle ueber divergentes Wissen verfuegen -- andernfalls reicht RLAIF.

Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen

Ein 25.000-Task-Experiment mit 8 Modellen und bis zu 256 Agenten zeigt: Selbstorganisierende Agenten ohne vorgegebene Rollen uebertreffen zentral koordinierte Strukturen um 14% -- und skalieren ohne Qualitaetsverlust.

EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum

Statt zufaellig synthetische Trainingsdaten zu erzeugen, identifiziert EmbedSDG duenn besetzte Regionen im Embedding-Raum des Schueler-Modells und generiert gezielt Daten fuer diese Luecken -- mit bis zu 2x Verbesserung auf GSM8K bei nur 500 synthetischen Beispielen.

Expert Pyramid Tuning -- Multi-Scale PEFT mit halbierten Parametern

Expert Pyramid Tuning (EPT) uebertraegt das Feature-Pyramid-Konzept aus Computer Vision auf Parameter-Efficient Fine-Tuning und erreicht bessere Multi-Task-Performance als LoRA-Varianten bei nur 50% der trainierbaren Parameter.

GoAgent -- Gruppenbasierte Kommunikationstopologien fuer Multi-Agent-Systeme

GoAgent behandelt kollaborative Gruppen statt einzelner Agenten als Grundbausteine fuer Multi-Agent-Systeme und generiert Kommunikationsgraphen autoregressive -- mit 93,84% Durchschnittsgenauigkeit bei 17% weniger Token-Verbrauch als bisherige Ansaetze.

JudgeBiasBench -- Systematische Vermessung und Reduktion von Bias in LLM-Richtern

JudgeBiasBench definiert eine Taxonomie von 12 Bias-Typen in vier Dimensionen fuer LLM-as-Judge-Systeme und zeigt, dass gezielte Debiasing-Methoden die Fehlerquote um mehr als die Haelfte senken, ohne die allgemeine Evaluierungsqualitaet zu beeintraechtigen.

KV-Cache-Optimierung -- Systematischer Ueberblick ueber Strategien fuer skalierbare LLM-Inferenz

Umfassende Taxonomie von KV-Cache-Optimierungen in fuenf Kategorien -- Eviction, Kompression, Hybrid-Speicher, alternative Attention und Kombinationsstrategien -- mit konkreten Empfehlungen fuer sieben Deployment-Szenarien.

From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?

ICRA-2026-Paper untersucht LLMs als zentrale kognitive Komponente fuer mobile Manipulatoren: Claude 4 Sonnet erreicht 100% Erfolgsrate, doch alle Modelle halluzinieren ueber ihren tatsaechlichen Aufgabenerfolg.

LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput

LongFlow komprimiert den KV-Cache von Reasoning-Modellen um 80% bei minimalem Genauigkeitsverlust und erreicht 11.8x Throughput-Steigerung durch einen fusionierten FlashAttention-Kernel, der Importance Estimation und Token Eviction in einem Schritt erledigt.

MARCH -- Multi-Agent-Selbstpruefung gegen Halluzinationen in RAG-Systemen

MARCH bricht Bestaetigungsfehler in LLM-Verifikation durch gezielte Informationsasymmetrie: Drei spezialisierte Agenten pruefen Fakten unabhaengig voneinander, was ein 8B-Modell auf das Niveau geschlossener Frontier-Modelle hebt.

MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?

Ein neuer Benchmark mit echten Amazon-Nutzerdaten testet 14 LLMs und 6 Memory-Methoden bei der Cross-Domain-Personalisierung -- und zeigt, dass kein aktuelles System zufriedenstellend abschneidet.

Multi-Layer Memory -- Geschichtetes Gedaechtnis fuer langlebige LLM-Agenten

Ein dreischichtiges Memory-Framework mit Working, Episodic und Semantic Memory verbessert die Langzeitkonsistenz von LLM-Agenten um 18% bei gleichzeitig 42% weniger Kontextverbrauch -- und reduziert falsche Erinnerungen auf 5,1%.

Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection

NVIDIA-Forscher zeigen, warum isolierte Plan-Execution-Pipelines in der Praxis scheitern und schlagen eine geschichtete Sicherheitsarchitektur vor, die regelbasierte Kontrollen, eingeschraenkte LLM-Entscheidungen und gezielte menschliche Aufsicht kombiniert.

One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen

OTV integriert einen lernbaren Verifikationstoken per LoRA, der ueber den KV-Cache die Korrektheit einer Reasoning-Spur in Echtzeit schaetzt -- mit bis zu 90% Token-Einsparung bei mathematischen Aufgaben.

LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung

Eine systematische Vergleichsstudie zeigt, dass LoRA mit nur 0.6% der trainierbaren Parameter Full Fine-Tuning auf medizinischer Textzusammenfassung uebertrifft -- ein Befund mit Implikationen weit ueber die Medizin hinaus.

PicoSpec -- Pipelined Speculative Decoding fuer Edge-Cloud LLM-Inferenz

PicoSpec entschaerft das Latenzproblem bei verteilter LLM-Inferenz zwischen Edge und Cloud durch asynchrones Pipelining und Sparse-Kompression -- bis zu 2,9-facher Speedup, ohne Retraining.

PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr

PISmith trainiert per Reinforcement Learning einen Angreifer-LLM, der bestehende Prompt-Injection-Defenses systematisch bricht -- mit 87% Erfolgsrate gegen SecAlign und 95% gegen GPT-5-nano in Agenten-Szenarien.

Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt

Reasoning-Modelle produzieren bis zu 50% kuerzere Denkspuren fuer dasselbe Problem, wenn es in einem groesseren Kontext eingebettet ist -- mit messbarem Leistungsabfall bei schwierigen Aufgaben.

Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken

Reasoning-Modelle wie DeepSeek-R1 kennen die Antwort auf einfache Fragen bereits intern, produzieren aber trotzdem lange Denkspuren -- performatives Reasoning, das bis zu 80% der Tokens verschwendet.

Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird

Wilhelm, Wittkopp und Kao zeigen, dass Sparse Autoencoders auf internen Aktivierungen Reward-Hacking-Verhalten waehrend der Generierung zuverlaessig erkennen -- fruehzeitiger als jede Output-basierte Bewertung.

Semantic Tool Discovery -- Vektorbasierte Werkzeugauswahl fuer MCP-Agenten

Statt LLM-Agenten hunderte MCP-Tools auf einmal zu praesentieren, waehlt ein vektorbasiertes Retrieval-System dynamisch die 3-5 relevantesten aus -- mit 99,6% Token-Reduktion bei 97,1% Trefferquote.

SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup

SemantiCache komprimiert den KV-Cache entlang semantischer Grenzen statt auf Token-Ebene. Durch Greedy Seed-Based Clustering und Proportional Attention erreicht das Verfahren 2.61x Decoding-Beschleunigung bei vergleichbarer Qualitaet zum unkomprimierten Modell.

Sim-to-Real fuer VLAs mit generativen 3D-Welten -- Szenendiversitaet statt Real-World-Overfitting

Ein neues Paper zeigt, wie generative 3D-Welten das RL-Finetuning von Vision-Language-Action-Modellen skalierbar machen: Hunderte automatisch erzeugte Szenen verbessern den Sim-to-Real-Transfer von 21,7% auf 75% Erfolgsrate.

SpecEyes -- Spekulative Beschleunigung fuer agentic multimodale LLMs

Ein vierphasiges Framework nutzt ein leichtgewichtiges 2B-Modell als spekulativen Planer, um teure Tool-Ketten in multimodalen Agenten zu umgehen: bis zu 3,35x Speedup bei gleichzeitig bis zu 6,7% Genauigkeitsgewinn.

SWE-CI -- Koennen Coding-Agenten langfristige Codebase-Wartung?

Neuer Benchmark testet LLM-Agenten nicht an Einzel-Bugfixes, sondern an realistischer Langzeit-Wartung ueber 233 Tage und 71 Commits -- Ergebnis: Alle 20 Modelle schreiben saubereren Code als Menschen, aber keines versteht Architektur.

SWE-PRBench -- Wie gut koennen LLMs Code Reviews?

Benchmark mit 350 Pull Requests zeigt: Selbst die besten Frontier-Modelle finden nur 15-31% der Probleme, die menschliche Reviewer erkennen -- und mehr Kontext macht die Ergebnisse schlechter statt besser.

Terminal Agents Suffice for Enterprise Automation -- Einfache Shell-Agenten schlagen MCP und GUI

Forschende zeigen, dass ein Coding-Agent mit Terminal und Dateisystem komplexe Enterprise-Aufgaben effektiver loest als MCP-Tool-Agenten oder GUI-basierte Web-Agenten -- bei einem Bruchteil der Kosten.