EnterpriseRAG-Bench: Neuer Open Benchmark für RAG auf 500.000 Unternehmensdokumenten
EnterpriseRAG-Bench ist ein öffentlich verfügbarer Benchmark, der RAG-Systeme unter realistischen Enterprise-Bedingungen testet. Das zugrundeliegende Korpus simuliert das fiktive Unternehmen „Redwood Inference" mit rund 500.000 Dokumenten aus neun Quelltypen: Slack, Gmail, Linear, Google Drive, HubSpot, Fireflies, GitHub, Jira und Confluence. Kern der Methodik ist eine mehrstufige Generierungspipeline, die zuerst das Unternehmen selbst (Produkte, Teams, Initiatives, interne Terminologie) definiert, dann quellspezifische Scaffolding-Dateien erzeugt und anschließend projektbezogene Dokumente mit gegenseitigem Bewusstsein füreinander generiert – um realistische Cross-Document-Abhängigkeiten zu erzielen. Gezielt eingebaute Qualitätsstörungen (falsch abgelegte Dokumente, Duplikate mit geänderten Fakten, veraltete Informationen, Off-Topic-Dateien) spiegeln echten Enterprise-Datenmüll wider. Der Benchmark umfasst 500 Fragen in 10 Kategorien, darunter Semantic-Low-Keyword-Overlap-Fragen, Multi-Doc-Fragen, unantwortbare Fragen und Vollständigkeitsfragen. Baseline-Ergebnisse zeigen: BM25 übertrifft Vector Search sowohl in Gesamtkorrektheit als auch in Document Recall; agentisches Retrieval erzielt die beste Vollständigkeit, ist aber deutlich langsamer und teurer. Das Repo enthält Datensatz, Evaluierungsharness und Generierungscode.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
AgenticRAG: Agentisches Retrieval schlägt Embedding-Baselines deutlich auf Enterprise-Benchmarks
- FORSCHUNGarxiv.org2w
SeedRG: Semi-synthetische Pipeline gegen Knowledge Leakage in RAG-Benchmarks
- MEINUNGmarktechpost.com2w
Neun Vektor-Datenbanken 2026 im Vergleich: Preise, Skalierung und Architektur
EnterpriseRAG-Bench: Neuer Open Benchmark für RAG auf 500.000 Unternehmensdokumenten
EnterpriseRAG-Bench ist ein öffentlich verfügbarer Benchmark, der RAG-Systeme unter realistischen Enterprise-Bedingungen testet. Das zugrundeliegende Korpus simuliert das fiktive Unternehmen „Redwood Inference" mit rund 500.000 Dokumenten aus neun Quelltypen: Slack, Gmail, Linear, Google Drive, HubSpot, Fireflies, GitHub, Jira und Confluence. Kern der Methodik ist eine mehrstufige Generierungspipeline, die zuerst das Unternehmen selbst (Produkte, Teams, Initiatives, interne Terminologie) definiert, dann quellspezifische Scaffolding-Dateien erzeugt und anschließend projektbezogene Dokumente mit gegenseitigem Bewusstsein füreinander generiert – um realistische Cross-Document-Abhängigkeiten zu erzielen. Gezielt eingebaute Qualitätsstörungen (falsch abgelegte Dokumente, Duplikate mit geänderten Fakten, veraltete Informationen, Off-Topic-Dateien) spiegeln echten Enterprise-Datenmüll wider. Der Benchmark umfasst 500 Fragen in 10 Kategorien, darunter Semantic-Low-Keyword-Overlap-Fragen, Multi-Doc-Fragen, unantwortbare Fragen und Vollständigkeitsfragen. Baseline-Ergebnisse zeigen: BM25 übertrifft Vector Search sowohl in Gesamtkorrektheit als auch in Document Recall; agentisches Retrieval erzielt die beste Vollständigkeit, ist aber deutlich langsamer und teurer. Das Repo enthält Datensatz, Evaluierungsharness und Generierungscode.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
AgenticRAG: Agentisches Retrieval schlägt Embedding-Baselines deutlich auf Enterprise-Benchmarks
- FORSCHUNGarxiv.org2w
SeedRG: Semi-synthetische Pipeline gegen Knowledge Leakage in RAG-Benchmarks
- MEINUNGmarktechpost.com2w
Neun Vektor-Datenbanken 2026 im Vergleich: Preise, Skalierung und Architektur