Qwen3.6-27B + Agentic Search erreicht 95,7 % auf SimpleQA – lokal auf einer RTX 3090
Local Deep Research (LDR) ist ein MIT-lizenziertes Open-Source-Projekt, das einen LangGraph-basierten Agenten mit Web-Suche kombiniert, um Faktenfragen zu beantworten. Der Maintainer berichtet nun von einem neuen Benchmark-Ergebnis: Mit dem Modell Qwen3.6-27B via Ollama und der langgraph_agent-Strategie – bestehend aus paralleler Subtopic-Dekomposition, bis zu 50 Iterationen und strukturiertem Tool-Calling – erzielt das System 95,7 % (287/300) auf SimpleQA sowie 77,0 % auf xbench-DeepSearch, alles lokal auf einer RTX 3090 mit 24 GB VRAM. Zum Vergleich: Qwen3.5-9B kommt auf 91,2 % bzw. 59,0 %, und das proprietäre gpt-oss-20B auf 85,4 % SimpleQA. Der Maintainer betont, dass die Ergebnisse stark von der Tool-Calling-Qualität des Modells abhängen – weniger von der reinen Parameterzahl. Wichtige Caveats: Die Stichprobengrößen sind klein, SimpleQA-Kontaminationsrisiko bei neueren Modellen ist real, xbench-DeepSearch ist auf Chinesisch (Vorteil für Qwen), und BrowseComp/GAIA-Zahlen stehen noch aus. LDR bietet zudem ein Journal-Quality-System (ab v1.6.0 mit OpenAlex/DOAJ), verschlüsselte SQLCipher-Datenbank pro Nutzer sowie Cosign-signierte Docker-Images – ohne jegliche Telemetrie.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
Undergrad baut Research-Agent mit lokalem Qwen3.5-35B für Physics-Informed Neural Networks
- BENCHMARKarxiv.org1w
GraphRAG auf Consumer-Hardware: Lokale LLMs für Healthcare-EHR-Abruf verglichen
- MEINUNGreddit.com3w
Qwen 3.6-35B generiert McKinsey-ähnliche 21-Seiten-Forschungsberichte mit Hermes Agent
Qwen3.6-27B + Agentic Search erreicht 95,7 % auf SimpleQA – lokal auf einer RTX 3090
Local Deep Research (LDR) ist ein MIT-lizenziertes Open-Source-Projekt, das einen LangGraph-basierten Agenten mit Web-Suche kombiniert, um Faktenfragen zu beantworten. Der Maintainer berichtet nun von einem neuen Benchmark-Ergebnis: Mit dem Modell Qwen3.6-27B via Ollama und der langgraph_agent-Strategie – bestehend aus paralleler Subtopic-Dekomposition, bis zu 50 Iterationen und strukturiertem Tool-Calling – erzielt das System 95,7 % (287/300) auf SimpleQA sowie 77,0 % auf xbench-DeepSearch, alles lokal auf einer RTX 3090 mit 24 GB VRAM. Zum Vergleich: Qwen3.5-9B kommt auf 91,2 % bzw. 59,0 %, und das proprietäre gpt-oss-20B auf 85,4 % SimpleQA. Der Maintainer betont, dass die Ergebnisse stark von der Tool-Calling-Qualität des Modells abhängen – weniger von der reinen Parameterzahl. Wichtige Caveats: Die Stichprobengrößen sind klein, SimpleQA-Kontaminationsrisiko bei neueren Modellen ist real, xbench-DeepSearch ist auf Chinesisch (Vorteil für Qwen), und BrowseComp/GAIA-Zahlen stehen noch aus. LDR bietet zudem ein Journal-Quality-System (ab v1.6.0 mit OpenAlex/DOAJ), verschlüsselte SQLCipher-Datenbank pro Nutzer sowie Cosign-signierte Docker-Images – ohne jegliche Telemetrie.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
Undergrad baut Research-Agent mit lokalem Qwen3.5-35B für Physics-Informed Neural Networks
- BENCHMARKarxiv.org1w
GraphRAG auf Consumer-Hardware: Lokale LLMs für Healthcare-EHR-Abruf verglichen
- MEINUNGreddit.com3w
Qwen 3.6-35B generiert McKinsey-ähnliche 21-Seiten-Forschungsberichte mit Hermes Agent