RAG-Chatbot-Evaluation: Qualität +19 %, Kosten −79 % durch Modellwechsel

ToolsClaude Gemini Chroma Mistral Replicate OpenRouter

Warum es zählt

Retrieval-Fehler tarnen sich als LLM-Schwäche, und teure Modelle sind keine Garantie für bessere Ergebnisse — ein strukturierter Modell-Sweep mit LLM-Judge-Evaluierung (hier Claude Haiku 4.5) kann beides gleichzeitig verbessern: Qualität und Kosteneffizienz.

— Lumeric Redaktion

Ein Reddit-Nutzer beschreibt die vollständige Evaluation eines produktiven Kundensupport-RAG-Bots auf Basis von ChromaDB. Ausgangsproblem: Qualitätsmessung erfolgte nur per Keyword-Matching, das keine aussagekräftigen Scores lieferte. Die wichtigste Erkenntnis: Ein zu strikter Similarity-Threshold (0,7 Cosine-Distance) in ChromaDB verhinderte, dass informelle Nutzereingaben überhaupt Dokumente zurücklieferten — das LLM konnte deshalb keine Antwort geben, was fälschlicherweise als Modellversagen interpretiert wurde. Als Evaluator wurde Claude Haiku 4.5 via OpenRouter eingesetzt, der Relevanz, Genauigkeit und Hilfsbereitschaft auf einer 0–10-Skala bewertet. Ein Modell-Sweep über fünf Systeme ergab, dass Gemma 4 26B mit einem Score von 7,88 gegenüber 7,33 beim bisherigen Gemini 3.1 Flash Lite Preview besser abschnitt und gleichzeitig 75 % günstiger war. Mistral Small 3.2 landete auf dem zweiten Platz. Zusätzlich wurden doppelte FAQ-Chunks (>80 % Token-Overlap) aus dem Kontext entfernt, was Halluzinationen bei Produktnamen reduzierte. Die gesamte Eval-Infrastruktur wurde mit dem Tool „Neo AI Engineer" aufgebaut.

Was wir noch wissen

ChromaDB Similarity-Threshold von 0,7 führte bei informellen Fragen zu null retrievten Dokumenten
LLM-Judge Claude Haiku 4.5 via OpenRouter bewertet Relevanz, Genauigkeit und Hilfsbereitschaft auf 0–10
Gemma 4 26B erzielte Score 7,88 vs. 7,33 bei Gemini 3.1 Flash Lite Preview — bei 75 % geringeren Kosten
Deduplizierung von Chunks mit >80 % Token-Overlap reduzierte Halluzinationen bei Produktnamen
Eval-Infrastruktur (Checkpointing, Timeout-Handling, Konsolidierung) wurde mit Neo AI Engineer erstellt

Quelle lesenreddit.com

+19 % / −79 %

Qualität rauf, Kosten runter pro Session

Agents Evals Benchmarks Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RAG-Chatbot-Evaluation: Qualität +19 %, Kosten −79 % durch Modellwechsel

ToolsClaude Gemini Chroma Mistral Replicate OpenRouter

CompaniesMistral AI AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

ChromaDB Similarity-Threshold von 0,7 führte bei informellen Fragen zu null retrievten Dokumenten
LLM-Judge Claude Haiku 4.5 via OpenRouter bewertet Relevanz, Genauigkeit und Hilfsbereitschaft auf 0–10
Gemma 4 26B erzielte Score 7,88 vs. 7,33 bei Gemini 3.1 Flash Lite Preview — bei 75 % geringeren Kosten
Deduplizierung von Chunks mit >80 % Token-Overlap reduzierte Halluzinationen bei Produktnamen
Eval-Infrastruktur (Checkpointing, Timeout-Handling, Konsolidierung) wurde mit Neo AI Engineer erstellt

+19 % / −79 %

Qualität rauf, Kosten runter pro Session

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RAG-Chatbot-Evaluation: Qualität +19 %, Kosten −79 % durch Modellwechsel

Frag die KI zum Artikel

Verwandte Beiträge

RAG-Chatbot-Evaluation: Qualität +19 %, Kosten −79 % durch Modellwechsel

Frag die KI zum Artikel

Verwandte Beiträge