UniAI-GraphRAG -- Ontologie-gesteuerte Graphen fuer robustes Multi-Hop-Reasoning
Jie Wang und Kollegen praesentieren UniAI-GraphRAG, ein Framework das drei zentrale Schwaechen aktueller GraphRAG-Systeme adressiert: ungenaue Entitaetsextraktion in Fachdomaenen, unvollstaendige Community-Erkennung und einseitige Retrieval-Strategien. Das Paper vom Maerz 2026 zeigt auf dem MultiHopRAG-Benchmark eine Verbesserung von 22,45% F1-Score gegenueber Naive RAG und uebertrifft LightRAG um 2,77%.
Kernaussagen
-
Ontologie als Leitplanke fuer die Extraktion. Statt LLMs frei Entitaeten und Relationen generieren zu lassen, definiert UniAI-GraphRAG ein Schema pro Domaene. Eine Indikatorfunktion akzeptiert nur Tripel, die den vorgegebenen Typconstraints entsprechen. Das reduziert Halluzinationen bei der Wissensextraktion erheblich -- besonders relevant in Fachdomaenen wie Medizin oder Finanzwesen, wo ein erfundenes Tripel fatale Folgen haben kann.
-
Mehrdimensionales Community-Clustering. Klassische GraphRAG-Systeme clustern rein topologisch. UniAI-GraphRAG ergaenzt drei Mechanismen: Attribut-basierte Modularitaet (semantische Aehnlichkeit neben struktureller Konnektivitaet), Epsilon-Neighbor Boundary Completion (Wiederherstellung getrennter Community-Kanten ueber einen Affinitaets-Schwellenwert) und Deep Traversal Clustering (N-Hop-Subgraphen auf Basis spezifischer Pfadmuster statt Breitensuche).
-
Dual-Channel-Retrieval balanciert Praezision und Abdeckung. Kanal 1 arbeitet auf Entitaetsebene mit Trie-Tree-Matching und struktureller Aehnlichkeit. Kanal 2 operiert auf Community-Ebene und vergleicht Query-Themen mit Community-Zusammenfassungen per Kosinus-Aehnlichkeit. Ein adaptives Gewicht balanciert beide Kanaele dynamisch basierend auf Entitaetsdichte und semantischer Abstraktion der Anfrage.
-
Starke Ergebnisse bei Inferenz, Schwaechen bei temporalen Anfragen. Auf dem MultiHopRAG-Benchmark erreicht UniAI-GraphRAG 90,23% F1 bei Inferenzfragen, 68,54% bei Vergleichsfragen und 52,67% bei temporalen Anfragen. Der Durchschnitt liegt bei 72,48% F1. Die temporale Schwaeche zeigt, dass zeitliche Zusammenhaenge in Graphstrukturen weiterhin eine Herausforderung darstellen.
Methodik
Die Evaluation laeuft auf dem MultiHopRAG-Benchmark, der drei Fragetypen abdeckt: Inferenz (Schlussfolgerungen ueber mehrere Fakten), Vergleich (Gegenueberstellung von Entitaeten) und temporale Anfragen (zeitlich abhaengige Informationen). Als Baselines dienen Dify Naive RAG, LightRAG und weitere Open-Source-GraphRAG-Implementierungen.
Eine Ablationsstudie quantifiziert den Beitrag jeder Komponente: Ontologie-gesteuerte Extraktion bringt +3,17% F1, mehrdimensionales Clustering +3,43% F1 und Dual-Channel-Fusion +3,32% F1. Die Beitraege sind nahezu gleichmaessig verteilt -- jede Komponente ist wesentlich.
Der Code ist oeffentlich auf GitHub verfuegbar.
Relevanz fuer die Praxis
UniAI-GraphRAG adressiert ein konkretes Problem, das viele Teams beim Aufbau von RAG-Systemen kennen: Standard-RAG versagt bei Fragen, die Informationen aus mehreren Dokumenten kombinieren muessen. GraphRAG verspricht hier Abhilfe, aber die Umsetzung scheitert oft an drei Stellen -- und genau diese adressiert das Paper:
Domaenenspezifische Extraktion ist Pflicht. Wer GraphRAG in einer Fachdomaene einsetzt, ohne die Extraktion zu constrainen, bekommt einen Graphen voller erfundener Relationen. Die Ontologie-Schicht ist konzeptionell einfach (ein Schema pro Domaene), erfordert aber manuellen Expertenaufwand. Fuer Teams mit bestehenden Domaenenmodellen oder Ontologien ist das ein natuerlicher Anknuepfungspunkt.
Community-Erkennung braucht mehr als Topologie. Die drei Clustering-Erweiterungen sind einzeln betrachtet inkrementelle Verbesserungen, zusammen aber signifikant. Besonders die Boundary Completion -- das Wiederherstellen getrennter Kanten zwischen Communities -- loest ein Problem, das in der Praxis haeufig zu unvollstaendigen Antworten fuehrt.
Hybrides Retrieval ist dem Einzelkanal ueberlegen. Die dynamische Balancierung zwischen praezisem Entity-Matching und breiterem Community-Retrieval ist ein Muster, das sich auch ausserhalb von GraphRAG anwenden laesst. Die Idee, die Retrieval-Strategie an die Anfrageeigenschaften anzupassen, ist allgemein uebertragbar.
Die Limitierungen sind klar: Der manuelle Schema-Aufwand skaliert schlecht, und temporale Anfragen bleiben schwach. Aber fuer domaenenspezifische Wissensanwendungen mit Multi-Hop-Anforderungen ist der Ansatz eine substanzielle Verbesserung gegenueber Standard-RAG.