Qwen3.6-27B + Agentic Search erreicht 95,7 % auf SimpleQA – lokal auf einer RTX 3090

ToolsQwen Ollama GPT Claude Hugging Face LangChain

Warum es zählt

Lokale Agentic-Search-Pipelines erreichen damit erstmals Werte vergleichbar mit kommerziellen Diensten wie Perplexity Deep Research (93,9 %) – ohne Cloud, ohne Telemetrie und auf Consumer-Hardware.

— Lumeric Redaktion

Local Deep Research (LDR) ist ein MIT-lizenziertes Open-Source-Projekt, das einen LangGraph-basierten Agenten mit Web-Suche kombiniert, um Faktenfragen zu beantworten. Der Maintainer berichtet nun von einem neuen Benchmark-Ergebnis: Mit dem Modell Qwen3.6-27B via Ollama und der langgraph_agent-Strategie – bestehend aus paralleler Subtopic-Dekomposition, bis zu 50 Iterationen und strukturiertem Tool-Calling – erzielt das System 95,7 % (287/300) auf SimpleQA sowie 77,0 % auf xbench-DeepSearch, alles lokal auf einer RTX 3090 mit 24 GB VRAM. Zum Vergleich: Qwen3.5-9B kommt auf 91,2 % bzw. 59,0 %, und das proprietäre gpt-oss-20B auf 85,4 % SimpleQA. Der Maintainer betont, dass die Ergebnisse stark von der Tool-Calling-Qualität des Modells abhängen – weniger von der reinen Parameterzahl. Wichtige Caveats: Die Stichprobengrößen sind klein, SimpleQA-Kontaminationsrisiko bei neueren Modellen ist real, xbench-DeepSearch ist auf Chinesisch (Vorteil für Qwen), und BrowseComp/GAIA-Zahlen stehen noch aus. LDR bietet zudem ein Journal-Quality-System (ab v1.6.0 mit OpenAlex/DOAJ), verschlüsselte SQLCipher-Datenbank pro Nutzer sowie Cosign-signierte Docker-Images – ohne jegliche Telemetrie.

Quelle lesenreddit.com

SimpleQA (Agentic Search) · Spitzenwert

95.7%

Qwen3.6-27B (LDR)

Agents Foundation Modelle Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B + Agentic Search erreicht 95,7 % auf SimpleQA – lokal auf einer RTX 3090

ToolsQwen Ollama GPT Claude Hugging Face LangChain

CompaniesPerplexity Hugging Face

Warum es zählt

Lokale Agentic-Search-Pipelines erreichen damit erstmals Werte vergleichbar mit kommerziellen Diensten wie Perplexity Deep Research (93,9 %) – ohne Cloud, ohne Telemetrie und auf Consumer-Hardware.

— Lumeric Redaktion

SimpleQA (Agentic Search) · Spitzenwert

95.7%

Qwen3.6-27B (LDR)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B + Agentic Search erreicht 95,7 % auf SimpleQA – lokal auf einer RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-27B + Agentic Search erreicht 95,7 % auf SimpleQA – lokal auf einer RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge