RAG-Chatbot-Evaluation: Qualität +19 %, Kosten −79 % durch Modellwechsel
Ein Reddit-Nutzer beschreibt die vollständige Evaluation eines produktiven Kundensupport-RAG-Bots auf Basis von ChromaDB. Ausgangsproblem: Qualitätsmessung erfolgte nur per Keyword-Matching, das keine aussagekräftigen Scores lieferte. Die wichtigste Erkenntnis: Ein zu strikter Similarity-Threshold (0,7 Cosine-Distance) in ChromaDB verhinderte, dass informelle Nutzereingaben überhaupt Dokumente zurücklieferten — das LLM konnte deshalb keine Antwort geben, was fälschlicherweise als Modellversagen interpretiert wurde. Als Evaluator wurde Claude Haiku 4.5 via OpenRouter eingesetzt, der Relevanz, Genauigkeit und Hilfsbereitschaft auf einer 0–10-Skala bewertet. Ein Modell-Sweep über fünf Systeme ergab, dass Gemma 4 26B mit einem Score von 7,88 gegenüber 7,33 beim bisherigen Gemini 3.1 Flash Lite Preview besser abschnitt und gleichzeitig 75 % günstiger war. Mistral Small 3.2 landete auf dem zweiten Platz. Zusätzlich wurden doppelte FAQ-Chunks (>80 % Token-Overlap) aus dem Kontext entfernt, was Halluzinationen bei Produktnamen reduzierte. Die gesamte Eval-Infrastruktur wurde mit dem Tool „Neo AI Engineer" aufgebaut.
- ChromaDB Similarity-Threshold von 0,7 führte bei informellen Fragen zu null retrievten Dokumenten
- LLM-Judge Claude Haiku 4.5 via OpenRouter bewertet Relevanz, Genauigkeit und Hilfsbereitschaft auf 0–10
- Gemma 4 26B erzielte Score 7,88 vs. 7,33 bei Gemini 3.1 Flash Lite Preview — bei 75 % geringeren Kosten
- Deduplizierung von Chunks mit >80 % Token-Overlap reduzierte Halluzinationen bei Produktnamen
- Eval-Infrastruktur (Checkpointing, Timeout-Handling, Konsolidierung) wurde mit Neo AI Engineer erstellt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
RAG schlägt Fine-Tuning bei industriellen QA-Systemen im Kosten-Qualitäts-Vergleich
- FORSCHUNGarxiv.org13h
CARL: Segment-Level Credit Assignment verbessert Tool-Nutzung bei LLMs
- FORSCHUNGarxiv.org13h
RAG-Benchmark: LoRA-Konfigurationen für Kubernetes-Doku mit 5.144 QA-Paaren analysiert
RAG-Chatbot-Evaluation: Qualität +19 %, Kosten −79 % durch Modellwechsel
Ein Reddit-Nutzer beschreibt die vollständige Evaluation eines produktiven Kundensupport-RAG-Bots auf Basis von ChromaDB. Ausgangsproblem: Qualitätsmessung erfolgte nur per Keyword-Matching, das keine aussagekräftigen Scores lieferte. Die wichtigste Erkenntnis: Ein zu strikter Similarity-Threshold (0,7 Cosine-Distance) in ChromaDB verhinderte, dass informelle Nutzereingaben überhaupt Dokumente zurücklieferten — das LLM konnte deshalb keine Antwort geben, was fälschlicherweise als Modellversagen interpretiert wurde. Als Evaluator wurde Claude Haiku 4.5 via OpenRouter eingesetzt, der Relevanz, Genauigkeit und Hilfsbereitschaft auf einer 0–10-Skala bewertet. Ein Modell-Sweep über fünf Systeme ergab, dass Gemma 4 26B mit einem Score von 7,88 gegenüber 7,33 beim bisherigen Gemini 3.1 Flash Lite Preview besser abschnitt und gleichzeitig 75 % günstiger war. Mistral Small 3.2 landete auf dem zweiten Platz. Zusätzlich wurden doppelte FAQ-Chunks (>80 % Token-Overlap) aus dem Kontext entfernt, was Halluzinationen bei Produktnamen reduzierte. Die gesamte Eval-Infrastruktur wurde mit dem Tool „Neo AI Engineer" aufgebaut.
- ChromaDB Similarity-Threshold von 0,7 führte bei informellen Fragen zu null retrievten Dokumenten
- LLM-Judge Claude Haiku 4.5 via OpenRouter bewertet Relevanz, Genauigkeit und Hilfsbereitschaft auf 0–10
- Gemma 4 26B erzielte Score 7,88 vs. 7,33 bei Gemini 3.1 Flash Lite Preview — bei 75 % geringeren Kosten
- Deduplizierung von Chunks mit >80 % Token-Overlap reduzierte Halluzinationen bei Produktnamen
- Eval-Infrastruktur (Checkpointing, Timeout-Handling, Konsolidierung) wurde mit Neo AI Engineer erstellt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
RAG schlägt Fine-Tuning bei industriellen QA-Systemen im Kosten-Qualitäts-Vergleich
- FORSCHUNGarxiv.org13h
CARL: Segment-Level Credit Assignment verbessert Tool-Nutzung bei LLMs
- FORSCHUNGarxiv.org13h
RAG-Benchmark: LoRA-Konfigurationen für Kubernetes-Doku mit 5.144 QA-Paaren analysiert