Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen

Warum es zählt

Zeigt praktische Grenzen und Optimierungspotenzial beim Deployment großer Open-Source-Modelle auf Consumer-GPUs; der vLLM-Patch-Fix hilft Tool-Agent-Workloads auf einzelnen 3090ern ohne OOM-Crashes.

— Lumeric Redaktion

Developer auf r/LocalLLaMA berichten von Optimierungen für Qwen3.6-27B auf einer einzelnen RTX 3090. Die Konfiguration erreicht 218K Context-Länge mit 50–66 Token-pro-Sekunde (TPS für Text bzw. Narration/Code), zusätzlich ist Vision mit 198K Context bei 51–68 TPS möglich. Der zentrale Fortschritt: Tool-Aufrufe mit bis zu 25K Token Output crashen nicht mehr. Das Problem war ein fehlerhaft angewendeter Genesis-Patch (PN12) in vLLM dev205+, dessen „anchor drift" den Memory-Mitigations-Code-Pfad nicht wirklich aktivierte. Nach Behebung in einem neuen PR (genesis-vllm-patches #13) verschwanden die Prefill-OOM-Fehler. Der Trade-off: niedrigere TPS als frühere Konfigurationen, aber deutlich höherer Context und echte Stabilität unter Tool-Agent-Workloads. Ein zweiter Memory-Cliff tritt um 50–60K Context bei Single-Prompt-Szenarien auf (verschwindet mit Tensor-Parallelismus). Reproduzierbar über noonghunna/club-3090.

Was wir noch wissen

vLLM PN12-Patch hatte Anchor-Drift-Fehler, der Code-Pfad war nicht wirklich aktiv trotz erfolgreicher apply_all-Meldung
Zwei Memory-Cliffs identifiziert: einer bei ~25K Tool-Output (jetzt gelöst), ein zweiter bei ~50–60K für Single-Prompt (nur mit Tensor-Parallelismus umgangen)
Vision-Modus parallel einsetzbar: 198K Context @ 51–68 TPS auf selber Hardware
Ergebnisse stark abhängig von Quantisierung und vLLM-Config-Details

Quelle lesenreddit.com

Open Source Inferenz Infra Long Context

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen

ToolsQwen

Warum es zählt

Zeigt praktische Grenzen und Optimierungspotenzial beim Deployment großer Open-Source-Modelle auf Consumer-GPUs; der vLLM-Patch-Fix hilft Tool-Agent-Workloads auf einzelnen 3090ern ohne OOM-Crashes.

— Lumeric Redaktion

Was wir noch wissen

vLLM PN12-Patch hatte Anchor-Drift-Fehler, der Code-Pfad war nicht wirklich aktiv trotz erfolgreicher apply_all-Meldung
Zwei Memory-Cliffs identifiziert: einer bei ~25K Tool-Output (jetzt gelöst), ein zweiter bei ~50–60K für Single-Prompt (nur mit Tensor-Parallelismus umgangen)
Vision-Modus parallel einsetzbar: 198K Context @ 51–68 TPS auf selber Hardware
Ergebnisse stark abhängig von Quantisierung und vLLM-Config-Details

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen

Frag die KI zum Artikel

Verwandte Beiträge