Needle 26M schlägt Qwen3-0.6B bei CPU-Tool-Calling: 72% vs. 56% Trefferquote, 4,4× schneller

CompaniesOpenAI

Warum es zählt

Wer auf ressourcenarmer Hardware (CPU-only) ein festes Tool-Set routen will, bekommt mit Needle (13 MB) höhere Genauigkeit und 4,4× niedrigere Latenz als mit Qwen3-0.6B – allerdings ohne jede Konversationsfähigkeit. Der Schema-Mismatch (OpenAI JSON vs. Needles Flat-Schema) ist ein kritischer Fallstrick in der Integration.

— Lumeric Redaktion

Der Reddit-Nutzer /u/gvij führte einen kontrollierten Kopf-an-Kopf-Vergleich zwischen Needle (26M Parameter, destilliert aus Gemini 3.1 für Function Calling) und Qwen3-0.6B auf einem 4-Kern-CPU ohne GPU durch. 50 Queries in fünf Schwierigkeitsstufen – von wörtlichen Anfragen bis zu impliziten Absichten, Fremdsprachen und einer „ruf kein Tool"-Falle – wurden mit denselben 5 Mock-Tools und drei Metriken (parse_success, tool_match, args_match) ausgewertet. Needle erreichte 72% tool_match und 84% parse_success bei einer mittleren Latenz von 10,9 Sekunden; Qwen3-0.6B kam auf 56% bzw. 54% bei 47,9 Sekunden. Die Fehlerbilder unterscheiden sich fundamental: Needle wählt das falsche Tool (vor allem routing von System-Commands zu search_web), trifft aber Argumente zu 97,2% korrekt. Qwen3 scheitert fast ausschließlich daran, überhaupt einen Tool-Call zu emittieren – alle 22 Fehler sind Parse-Failures, bei denen das Modell Fließtext statt <tool_call>-Tags liefert. Bei impliziten Queries (Tier 3) bricht Qwen3 von 80% auf 10% ein, Needle bleibt stabil. Einzig Tier 5 (Edge Cases inkl. Hindi/Französisch) gewinnt Qwen3 um 10 Punkte – Needles Tokenizer fragmentiert Devanagari-Script. Ein kritischer Hinweis: Needle erzielte im ersten Durchlauf nur 8% Genauigkeit, weil ein OpenAI-JSON-Schema statt Needles eigenem Flat-Schema gefüttert wurde – nach Schema-Konvertierung sprang die Genauigkeit auf 72%.

Quelle lesenreddit.com

Tool-Match (CPU Function Calling, 50 Queries) · Spitzenwert

72%

Needle 26M

Evals Benchmarks Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Needle 26M schlägt Qwen3-0.6B bei CPU-Tool-Calling: 72% vs. 56% Trefferquote, 4,4× schneller

ToolsGPT Gemini Qwen

CompaniesOpenAI

Warum es zählt

— Lumeric Redaktion

Tool-Match (CPU Function Calling, 50 Queries) · Spitzenwert

72%

Needle 26M

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Needle 26M schlägt Qwen3-0.6B bei CPU-Tool-Calling: 72% vs. 56% Trefferquote, 4,4× schneller

Frag die KI zum Artikel

Verwandte Beiträge

Needle 26M schlägt Qwen3-0.6B bei CPU-Tool-Calling: 72% vs. 56% Trefferquote, 4,4× schneller

Frag die KI zum Artikel

Verwandte Beiträge