Gemma 4 31B-it auf vLLM 0.21.0 mit A100s: Probleme mit Structured Output
Nutzer Thagor schildert auf r/LocalLLaMA ein praktisches Deployment-Problem: Er betreibt Googles Gemma 4 31B-it auf zwei NVLink-verbundenen A100-GPUs via vLLM 0.21.0 (Container vllm/vllm-openai:v0.21.0-cu129) mit Tensor-Parallelisierung (tensor-parallel-size 2). Der Zugriff erfolgt über LiteLLM als Proxy, die Ausgaben werden als strukturiertes JSON angefordert. Im Vergleich zur offiziellen Google-API, die einwandfreie Resultate liefert, produziert das lokale Setup laut Bericht inkorrekte oder gar kein valides JSON. Beide Setups verwenden BF16 und identische Parameter. Auffällig in der Launch-Konfiguration ist die gleichzeitige Nutzung von --reasoning-parser gemma4 und --enable-auto-tool-choice sowie ein eigenes Chat-Template mit aktiviertem Thinking-Modus. Die Ursache könnte in einer Wechselwirkung zwischen dem Reasoning-Parser, dem Tool-Call-Parser und dem Structured-Output-Mechanismus von vLLM liegen – eine Kombination, die in dieser Version möglicherweise noch nicht vollständig unterstützt wird. Der Post ist ein Praxisbeispiel für die Fallstricke beim lokalen Deployment großer Modelle mit komplexen Parsing-Pipelines.
- Zwei NVLink-A100s, Tensor-Parallel-Size 2, GPU-Memory-Utilization 0.95
- Container: vllm/vllm-openai:v0.21.0-cu129, max-model-len 65536, max-num-seqs 4
- Gleichzeitiger Einsatz von --reasoning-parser gemma4 und --tool-call-parser gemma4 – mögliche Konfliktquelle
- Chat-Template mit '{"enable_thinking": true}' aktiviert, eigenes Gemma-Chat-Template verwendet
- Google-API liefert mit identischen Parametern korrekte JSON-Ausgaben; lokales Setup versagt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 31B-it auf vLLM 0.21.0 mit A100s: Probleme mit Structured Output
Nutzer Thagor schildert auf r/LocalLLaMA ein praktisches Deployment-Problem: Er betreibt Googles Gemma 4 31B-it auf zwei NVLink-verbundenen A100-GPUs via vLLM 0.21.0 (Container vllm/vllm-openai:v0.21.0-cu129) mit Tensor-Parallelisierung (tensor-parallel-size 2). Der Zugriff erfolgt über LiteLLM als Proxy, die Ausgaben werden als strukturiertes JSON angefordert. Im Vergleich zur offiziellen Google-API, die einwandfreie Resultate liefert, produziert das lokale Setup laut Bericht inkorrekte oder gar kein valides JSON. Beide Setups verwenden BF16 und identische Parameter. Auffällig in der Launch-Konfiguration ist die gleichzeitige Nutzung von --reasoning-parser gemma4 und --enable-auto-tool-choice sowie ein eigenes Chat-Template mit aktiviertem Thinking-Modus. Die Ursache könnte in einer Wechselwirkung zwischen dem Reasoning-Parser, dem Tool-Call-Parser und dem Structured-Output-Mechanismus von vLLM liegen – eine Kombination, die in dieser Version möglicherweise noch nicht vollständig unterstützt wird. Der Post ist ein Praxisbeispiel für die Fallstricke beim lokalen Deployment großer Modelle mit komplexen Parsing-Pipelines.
- Zwei NVLink-A100s, Tensor-Parallel-Size 2, GPU-Memory-Utilization 0.95
- Container: vllm/vllm-openai:v0.21.0-cu129, max-model-len 65536, max-num-seqs 4
- Gleichzeitiger Einsatz von --reasoning-parser gemma4 und --tool-call-parser gemma4 – mögliche Konfliktquelle
- Chat-Template mit '{"enable_thinking": true}' aktiviert, eigenes Gemma-Chat-Template verwendet
- Google-API liefert mit identischen Parametern korrekte JSON-Ausgaben; lokales Setup versagt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.