Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen
Developer auf r/LocalLLaMA berichten von Optimierungen für Qwen3.6-27B auf einer einzelnen RTX 3090. Die Konfiguration erreicht 218K Context-Länge mit 50–66 Token-pro-Sekunde (TPS für Text bzw. Narration/Code), zusätzlich ist Vision mit 198K Context bei 51–68 TPS möglich. Der zentrale Fortschritt: Tool-Aufrufe mit bis zu 25K Token Output crashen nicht mehr. Das Problem war ein fehlerhaft angewendeter Genesis-Patch (PN12) in vLLM dev205+, dessen „anchor drift" den Memory-Mitigations-Code-Pfad nicht wirklich aktivierte. Nach Behebung in einem neuen PR (genesis-vllm-patches #13) verschwanden die Prefill-OOM-Fehler. Der Trade-off: niedrigere TPS als frühere Konfigurationen, aber deutlich höherer Context und echte Stabilität unter Tool-Agent-Workloads. Ein zweiter Memory-Cliff tritt um 50–60K Context bei Single-Prompt-Szenarien auf (verschwindet mit Tensor-Parallelismus). Reproduzierbar über noonghunna/club-3090.
- vLLM PN12-Patch hatte Anchor-Drift-Fehler, der Code-Pfad war nicht wirklich aktiv trotz erfolgreicher apply_all-Meldung
- Zwei Memory-Cliffs identifiziert: einer bei ~25K Tool-Output (jetzt gelöst), ein zweiter bei ~50–60K für Single-Prompt (nur mit Tensor-Parallelismus umgangen)
- Vision-Modus parallel einsetzbar: 198K Context @ 51–68 TPS auf selber Hardware
- Ergebnisse stark abhängig von Quantisierung und vLLM-Config-Details
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen
Developer auf r/LocalLLaMA berichten von Optimierungen für Qwen3.6-27B auf einer einzelnen RTX 3090. Die Konfiguration erreicht 218K Context-Länge mit 50–66 Token-pro-Sekunde (TPS für Text bzw. Narration/Code), zusätzlich ist Vision mit 198K Context bei 51–68 TPS möglich. Der zentrale Fortschritt: Tool-Aufrufe mit bis zu 25K Token Output crashen nicht mehr. Das Problem war ein fehlerhaft angewendeter Genesis-Patch (PN12) in vLLM dev205+, dessen „anchor drift" den Memory-Mitigations-Code-Pfad nicht wirklich aktivierte. Nach Behebung in einem neuen PR (genesis-vllm-patches #13) verschwanden die Prefill-OOM-Fehler. Der Trade-off: niedrigere TPS als frühere Konfigurationen, aber deutlich höherer Context und echte Stabilität unter Tool-Agent-Workloads. Ein zweiter Memory-Cliff tritt um 50–60K Context bei Single-Prompt-Szenarien auf (verschwindet mit Tensor-Parallelismus). Reproduzierbar über noonghunna/club-3090.
- vLLM PN12-Patch hatte Anchor-Drift-Fehler, der Code-Pfad war nicht wirklich aktiv trotz erfolgreicher apply_all-Meldung
- Zwei Memory-Cliffs identifiziert: einer bei ~25K Tool-Output (jetzt gelöst), ein zweiter bei ~50–60K für Single-Prompt (nur mit Tensor-Parallelismus umgangen)
- Vision-Modus parallel einsetzbar: 198K Context @ 51–68 TPS auf selber Hardware
- Ergebnisse stark abhängig von Quantisierung und vLLM-Config-Details
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.