Fine-Tuning von Jina-v5 auf slowakischem Rechtskorpus scheitert an Ambiguität

ToolsClaude Qwen NVIDIA Hardware Hugging Face

Warum es zählt

Das Beispiel zeigt eine strukturelle Schwäche von Embedding-Fine-Tuning mit LLM-generierten Trainingsdaten: Selbst korrekt gelabelte MarginMSE-Tripel aus Qwen-3.5-Distillation können domänenspezifische Kontextambiguität nicht zuverlässig auflösen – relevant für alle, die Retrieval-Adapter für Fachrechts-RAG trainieren.

— Lumeric Redaktion

Ein Entwickler schildert auf r/LocalLLaMA detailliert sein gescheitertes Fine-Tuning von jinaai/jina-embeddings-v5-text-small auf einem slowakischen Justizkorpus aus Gerichtsurteilen und Gesetzestexten. Das zentrale Problem ist ein ambiges slowakisches Wort: „prepadnutie" kann Raub/Überfall (strafrechtlich relevant) oder Einziehung/Verfall von Gegenständen bedeuten – zwei rechtlich völlig verschiedene Konzepte. Der Kontext (§ 60 Tr. zák.) macht klar, dass es sich um eine Einziehungsstrafe handelt, doch das fine-getunte Modell rankt diesen Chunk bei der Anfrage „krádež cigariet" (Zigarettendiebstahl) durchgängig höher als das Basismodell – also schlechter. Der Trainingsprozess nutzte Qwen3.5-397B-A17B als Teacher für Logit-Mining (Ja/Nein-Relevanz), daraus 46.001 MarginMSE-Tripel aus 2.174 generierten Queries. Die LoRA-Konfiguration zielte auf die eingebaute Retrieval-Adapter-Schicht von jina-v5 (r=32, α=32, q/k/v/o/gate/up/down_proj). Das Training lief ~74 Minuten auf einer RTX PRO 6000 Blackwell mit 96 GB VRAM. Alle bisherigen Runs – mit und ohne Injektion ähnlicher Chunks – verschlechtern die Ambiguitätsauflösung gegenüber dem Basismodell.

Quelle lesenreddit.com

2,98 % trainierbare Parameter

LoRA-Anteil (20M / 677M) an jina-v5-small

Foundation Modelle Open Source Post Training