Qwen 3.6-35B mit VS Code als lokaler Coding-Assistent: Vollständige Test-Suite beim ersten Versuch

ToolsGPT Qwen Llama Hugging Face GitHub Copilot

Warum es zählt

Demonstriert, dass aktuelle 35B-Modelle lokal auf Consumer-Hardware (AMD R9700) produktiv für professionelle Coding-Aufgaben einsetzbar sind. Zeigt praktische Integration mit VS Code und llama-cpp-Inferenzserver für Real-World-Entwickler-Workflows.

— Lumeric Redaktion

Der Post dokumentiert eine produktiv eingesetzte Setup-Konfiguration für lokale Inference: Qwen 3.6-35B läuft über llama-cpp mit Vulkan auf einem AMD R9700 mit 262k Token-Kontext. Der Nutzer verarbeitet eine komplexe Prompt (Bike-Shop-Tracker-App in React/TypeScript mit Playwright-Tests) und berichtet von hoher Code-Qualität beim ersten Durchsatz — die generierte Website war sofort lauffähig, und eine komplette Test-Suite erforderte nur eine manuelle Korrektur. Die Integration erfolgt über VS Code's native chatLanguageModels.json mit Custom-Endpoint (llm.home.arpa). Sampling-Parameter stammen von Qwen's eigenem "precise coding"-Preset (temp 0.6, top-p 0.95, top-k 20). Der Beitrag repräsentiert praktische Evidence, dass mittlere Open-Source-Modelle heute für professionelle Entwicklungsaufgaben lokal wirtschaftlich sinnvoll sind.

Was wir noch wissen

Qwen 3.6-35B (Q5_K_XL) auf AMD R9700; 262k Token Kontext mit Flash-Attention und KV-Cache in q8_0
VS Code Integration über Custom-Endpoint mit Tool-Calling, max. 180k Input / 10k Output Tokens
"Precise Coding" Sampling direkt von Hugging-Face-Kartei übernommen: temp 0.6, top-p 0.95, top-k 20, repeat-penalty 1.0
Testfall: React+TypeScript Single-Page-App (Bike-Service-Tracker) mit Playwright-Tests — erste Version funktionsfähig mit nur 1 manuellen Bug-Fix

Quelle lesenreddit.com

Coding Assistenten Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6-35B mit VS Code als lokaler Coding-Assistent: Vollständige Test-Suite beim ersten Versuch

ToolsGPT Qwen Llama Hugging Face GitHub Copilot

CompaniesHugging Face AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Qwen 3.6-35B (Q5_K_XL) auf AMD R9700; 262k Token Kontext mit Flash-Attention und KV-Cache in q8_0
VS Code Integration über Custom-Endpoint mit Tool-Calling, max. 180k Input / 10k Output Tokens
"Precise Coding" Sampling direkt von Hugging-Face-Kartei übernommen: temp 0.6, top-p 0.95, top-k 20, repeat-penalty 1.0
Testfall: React+TypeScript Single-Page-App (Bike-Service-Tracker) mit Playwright-Tests — erste Version funktionsfähig mit nur 1 manuellen Bug-Fix

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6-35B mit VS Code als lokaler Coding-Assistent: Vollständige Test-Suite beim ersten Versuch

Frag die KI zum Artikel

Verwandte Beiträge

Qwen 3.6-35B mit VS Code als lokaler Coding-Assistent: Vollständige Test-Suite beim ersten Versuch

Frag die KI zum Artikel

Verwandte Beiträge