Needle 26M schlägt Qwen3-0.6B bei CPU-Tool-Calling: 72% vs. 56% Trefferquote, 4,4× schneller
Der Reddit-Nutzer /u/gvij führte einen kontrollierten Kopf-an-Kopf-Vergleich zwischen Needle (26M Parameter, destilliert aus Gemini 3.1 für Function Calling) und Qwen3-0.6B auf einem 4-Kern-CPU ohne GPU durch. 50 Queries in fünf Schwierigkeitsstufen – von wörtlichen Anfragen bis zu impliziten Absichten, Fremdsprachen und einer „ruf kein Tool"-Falle – wurden mit denselben 5 Mock-Tools und drei Metriken (parse_success, tool_match, args_match) ausgewertet. Needle erreichte 72% tool_match und 84% parse_success bei einer mittleren Latenz von 10,9 Sekunden; Qwen3-0.6B kam auf 56% bzw. 54% bei 47,9 Sekunden. Die Fehlerbilder unterscheiden sich fundamental: Needle wählt das falsche Tool (vor allem routing von System-Commands zu search_web), trifft aber Argumente zu 97,2% korrekt. Qwen3 scheitert fast ausschließlich daran, überhaupt einen Tool-Call zu emittieren – alle 22 Fehler sind Parse-Failures, bei denen das Modell Fließtext statt <tool_call>-Tags liefert. Bei impliziten Queries (Tier 3) bricht Qwen3 von 80% auf 10% ein, Needle bleibt stabil. Einzig Tier 5 (Edge Cases inkl. Hindi/Französisch) gewinnt Qwen3 um 10 Punkte – Needles Tokenizer fragmentiert Devanagari-Script. Ein kritischer Hinweis: Needle erzielte im ersten Durchlauf nur 8% Genauigkeit, weil ein OpenAI-JSON-Schema statt Needles eigenem Flat-Schema gefüttert wurde – nach Schema-Konvertierung sprang die Genauigkeit auf 72%.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Needle 26M schlägt Qwen3-0.6B bei CPU-Tool-Calling: 72% vs. 56% Trefferquote, 4,4× schneller
Der Reddit-Nutzer /u/gvij führte einen kontrollierten Kopf-an-Kopf-Vergleich zwischen Needle (26M Parameter, destilliert aus Gemini 3.1 für Function Calling) und Qwen3-0.6B auf einem 4-Kern-CPU ohne GPU durch. 50 Queries in fünf Schwierigkeitsstufen – von wörtlichen Anfragen bis zu impliziten Absichten, Fremdsprachen und einer „ruf kein Tool"-Falle – wurden mit denselben 5 Mock-Tools und drei Metriken (parse_success, tool_match, args_match) ausgewertet. Needle erreichte 72% tool_match und 84% parse_success bei einer mittleren Latenz von 10,9 Sekunden; Qwen3-0.6B kam auf 56% bzw. 54% bei 47,9 Sekunden. Die Fehlerbilder unterscheiden sich fundamental: Needle wählt das falsche Tool (vor allem routing von System-Commands zu search_web), trifft aber Argumente zu 97,2% korrekt. Qwen3 scheitert fast ausschließlich daran, überhaupt einen Tool-Call zu emittieren – alle 22 Fehler sind Parse-Failures, bei denen das Modell Fließtext statt <tool_call>-Tags liefert. Bei impliziten Queries (Tier 3) bricht Qwen3 von 80% auf 10% ein, Needle bleibt stabil. Einzig Tier 5 (Edge Cases inkl. Hindi/Französisch) gewinnt Qwen3 um 10 Punkte – Needles Tokenizer fragmentiert Devanagari-Script. Ein kritischer Hinweis: Needle erzielte im ersten Durchlauf nur 8% Genauigkeit, weil ein OpenAI-JSON-Schema statt Needles eigenem Flat-Schema gefüttert wurde – nach Schema-Konvertierung sprang die Genauigkeit auf 72%.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.