Forschung
Strömungen — Forschung & Trends -- gut davon gehört zu haben
Alibaba VimRAG: Memory Graph für multimodale Kontexte
Alibabas Tongyi Lab veröffentlicht VimRAG, ein multimodales RAG-Framework, das Memory Graphs statt reine Vektorsuche für die Navigation in großen visuellen Kontexten nutzt. Ein Schritt weg von rein semantischem Retrieval -- in Richtung deterministischer, strukturierter Memory-Architekturen für Bilder, Layouts und Diagramme.
Gemini-Wasserzeichen zerlegt: Reverse-Engineering von SynthID
Der Entwickler Alosh Denny (aloshdenny) hat Googles SynthID-Watermarking fuer Gemini-Bilder ohne Zugriff auf Encoder oder Decoder rueckentwickelt. Sein Repository 'reverse-SynthID' zeigt, dass das Wasserzeichen aus resolutionsabhaengigen Traegerfrequenzen im FFT-Spektrum besteht -- und liefert ein CLI, das sie mit 43 dB PSNR wieder entfernt. Die Debatte um AI-Provenance verschiebt sich damit erneut.
178 KI-Modelle per Schreibstil identifiziert -- Fingerprinting und Similarity-Cluster
Rival Tips hat 178 KI-Modelle anhand von 32 stilometrischen Dimensionen fingerprinted und dabei 9 Klon-Cluster mit ueber 90% Aehnlichkeit identifiziert. Die Analyse zeigt: Viele Modelle unterschiedlicher Anbieter schreiben nahezu identisch.
CompreSSM: MIT-Forscher komprimieren AI-Modelle während des Trainings
MIT-Technik CompreSSM nutzt Hankel-Singulärwerte aus der Kontrolltheorie, um State Space Models bereits nach 10% des Trainings auf ihre wesentlichen Komponenten zu reduzieren. Ergebnis: bis zu 4x schnelleres Training bei gleicher oder besserer Accuracy.
Gemini Notebooks: Google verzahnt NotebookLM mit der Gemini-App
Google integriert Notebooks direkt in die Gemini-App und verbindet damit Chat-Interface und NotebookLM-Recherche an einem Ort. Die Strategie: weniger App-Wechsel, breitere Reichweite fuer das bisherige Nischen-Tool.
Hierarchical Agentic RAG -- Supervisor-Worker-Architektur mit autonomer Fehlerkorrektur
InfoQ beschreibt eine hierarchische RAG-Architektur mit Supervisor-Worker-Topologie und reflektiver Fehlerkorrektur, die Halluzinationen von 28,5% auf 7,1% senkt und modalitaetsuebergreifende Abfragen zuverlaessig beantwortet.
PaperOrchestra: Googles Multi-Agent-Framework fuer automatisierte Forschungsarbeiten
Google Cloud AI Research stellt PaperOrchestra vor -- ein Multi-Agent-System das aus unstrukturierten Forschungsnotizen einreichungsfertige LaTeX-Manuskripte erzeugt. In menschlichen Evaluationen uebertrifft es bestehende Ansaetze mit 50-68% Vorsprung bei der Literaturuebersicht.
FIPO: Alibabas Qwen-Team bringt Reasoning-Modelle zum tieferen Denken
Future-KL Influenced Policy Optimization (FIPO) gewichtet jeden Reasoning-Schritt nach seinem Einfluss auf nachfolgende Schritte. Ergebnis: Antwortlaenge von 4.000 auf 10.000+ Tokens, AIME-Genauigkeit uebertrifft o1-mini.
Claude Code findet Zero-Day-Exploits in Vim und GNU Emacs
Ein Sicherheitsforscher hat mit einfachen Prompts an Claude Code Zero-Day-Remote-Code-Execution-Luecken in Vim und GNU Emacs aufgedeckt -- innerhalb von Minuten.
Anthropic findet emotionsaehnliche Repraesentationen in Claude
Anthropic-Forscher haben in Claude Repraesentationen entdeckt, die aehnliche Funktionen wie menschliche Gefuehle ausueben -- sogenannte funktionale Emotionen. Das hat Implikationen fuer AI-Sicherheit, Alignment und Interpretierbarkeit.
Google DeepMind katalogisiert sechs Angriffstypen gegen autonome AI-Agenten
DeepMind-Forscher haben die erste systematische Taxonomie erstellt, wie Websites, Dokumente und APIs genutzt werden koennen, um autonome AI-Agenten zu manipulieren und zu kapern.
Humanoide Robotik: Von der Demo zur Fabrik
Die humanoide Robotik hat 2025/2026 den Sprung von der Forschungsdemo zur kommerziellen Realitaet geschafft -- mit Milliarden-Investments, ersten Fabrikeinsaetzen und NVIDIA als Infrastruktur-Lieferant.
KAIROS: Anatomie von Anthropics Always-On Agent Daemon
Der Claude Code Source Leak enthuellt KAIROS -- einen persistenten Hintergrund-Agenten mit Tick-Loop, Blocking Budget, SleepTool und naechtlicher Memory-Konsolidierung. Ein technischer Deep Dive in die Architektur des proaktiven Agenten.
MLPerf-Rekorde und die Grenzen von AI ohne Abstraktion
Nvidia setzt mit 288 Blackwell-Ultra-GPUs neue MLPerf-Rekorde, waehrend eine Studie von Nvidia, UC Berkeley und Stanford zeigt: Ohne menschlich designte Abstraktionen scheitern selbst Top-Modelle bei der Robotersteuerung -- Agentic Scaffolding schliesst die Luecke.
Google TimesFM: Foundation Model fuer Zeitreihen mit 16k Kontext
Google Research veroeffentlicht TimesFM -- ein Open-Source Foundation Model mit 200 Millionen Parametern fuer Zeitreihen-Analyse, Forecasting und Anomalie-Erkennung.
Maximo: Roboter installiert Solarmodule doppelt so schnell wie Menschen
Maximos Roboter installiert automatisiert Solarmodule mit fast doppelter Geschwindigkeit. Ein konkretes Beispiel fuer KI-Robotik im Produktionseinsatz jenseits der Labor-Demo.
CERN: Mini-KI auf FPGAs filtert LHC-Daten in Echtzeit
CERN nutzt ultra-kompakte KI-Modelle die direkt auf FPGAs laufen, um Teilchenkollisionsdaten in Mikrosekunden zu filtern. Ein Gegenpol zum 'größer ist besser'-Narrativ.
Knuth's Claude Cycles: AI und Proof Assistants lösen mathematisches Problem gemeinsam
Donald Knuths mathematisches Problem 'Claude's Cycles' wurde durch eine Kombination aus LLMs und formalen Proof Assistants vollständig gelöst -- ein Meilenstein für AI-gestütztes Theorem Proving.
Meta Hyperagents: KI-Systeme die ihren eigenen Lernprozess optimieren
Meta und mehrere Universitaeten praesentieren Hyperagents -- AI-Systeme die nicht nur Aufgaben loesen, sondern auch ihren eigenen Verbesserungsmechanismus optimieren. Der Ansatz funktioniert domainuebergreifend.
Naver Seoul World Model: Video-KI mit echten Geodaten gegen Halluzinationen
Der suedkoreanische Konzern Naver trainiert ein Video-Weltmodell auf ueber einer Million echten Street-View-Bildern. Das Modell generalisiert auf andere Staedte ohne Fine-Tuning.
ARC-AGI-3: Benchmark-Reset zeigt fundamentale Reasoning-Luecke
Die dritte Version des ARC-Benchmarks setzt alle Fortschritte zurueck -- das beste Modell erreicht 0.37%, Menschen loesen 100% beim ersten Versuch. 2 Millionen Dollar Preisgeld.
Meta TRIBE v2: Foundation Model sagt Gehirnaktivitaet ueber Video, Audio und Text voraus
Meta veroeffentlicht TRIBE v2 -- ein trimodales Open-Source-Modell, das fMRI-Gehirnaktivitaet auf Basis von Video, Audio und Text vorhersagt. Trainiert auf ueber 700 Probanden, erreicht es 70-fach hoehere raeumliche Aufloesung als bisherige Ansaetze und ermoeglicht in-silico Neurowissenschaft.
Google TurboQuant: LLM-Speicherverbrauch um Faktor 6 reduziert
Googles neuer Kompressionsalgorithmus TurboQuant reduziert den Speicherbedarf von LLMs um das Sechsfache bei minimalem Qualitaetsverlust -- ein Durchbruch fuer On-Device-Inferenz und kosteneffizientes Hosting.
Agile Robots und Google DeepMind bringen KI-Roboter in Fabriken
Das Münchner Unternehmen Agile Robots integriert DeepMinds Gemini-Robotics-Modelle in seine Industrieroboter -- eine der ersten konkreten Partnerschaften seit der Vorstellung des Modells.