EnterpriseRAG-Bench: Neuer Open Benchmark für RAG auf 500.000 Unternehmensdokumenten

Warum es zählt

Wer RAG-Systeme für echte Enterprise-Umgebungen baut, hat bisher kaum realistische Benchmarks — EnterpriseRAG-Bench schließt diese Lücke mit simulierten Noise-Patterns, Widersprüchen und Cross-Document-Abhängigkeiten. Der überraschend starke BM25-Befund stellt gängige Annahmen über die Überlegenheit von Vector Search in Frage.

— Lumeric Redaktion

EnterpriseRAG-Bench ist ein öffentlich verfügbarer Benchmark, der RAG-Systeme unter realistischen Enterprise-Bedingungen testet. Das zugrundeliegende Korpus simuliert das fiktive Unternehmen „Redwood Inference" mit rund 500.000 Dokumenten aus neun Quelltypen: Slack, Gmail, Linear, Google Drive, HubSpot, Fireflies, GitHub, Jira und Confluence. Kern der Methodik ist eine mehrstufige Generierungspipeline, die zuerst das Unternehmen selbst (Produkte, Teams, Initiatives, interne Terminologie) definiert, dann quellspezifische Scaffolding-Dateien erzeugt und anschließend projektbezogene Dokumente mit gegenseitigem Bewusstsein füreinander generiert – um realistische Cross-Document-Abhängigkeiten zu erzielen. Gezielt eingebaute Qualitätsstörungen (falsch abgelegte Dokumente, Duplikate mit geänderten Fakten, veraltete Informationen, Off-Topic-Dateien) spiegeln echten Enterprise-Datenmüll wider. Der Benchmark umfasst 500 Fragen in 10 Kategorien, darunter Semantic-Low-Keyword-Overlap-Fragen, Multi-Doc-Fragen, unantwortbare Fragen und Vollständigkeitsfragen. Baseline-Ergebnisse zeigen: BM25 übertrifft Vector Search sowohl in Gesamtkorrektheit als auch in Document Recall; agentisches Retrieval erzielt die beste Vollständigkeit, ist aber deutlich langsamer und teurer. Das Repo enthält Datensatz, Evaluierungsharness und Generierungscode.

Quelle lesenreddit.com

500.000 Dokumente

Synthetisches Unternehmens-Korpus (Redwood Inference)

Evals Benchmarks Foundation Modelle Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

EnterpriseRAG-Bench: Neuer Open Benchmark für RAG auf 500.000 Unternehmensdokumenten

CompaniesGoogle DeepMind

Warum es zählt

— Lumeric Redaktion

500.000 Dokumente

Synthetisches Unternehmens-Korpus (Redwood Inference)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

EnterpriseRAG-Bench: Neuer Open Benchmark für RAG auf 500.000 Unternehmensdokumenten

Frag die KI zum Artikel

Verwandte Beiträge

EnterpriseRAG-Bench: Neuer Open Benchmark für RAG auf 500.000 Unternehmensdokumenten

Frag die KI zum Artikel

Verwandte Beiträge