Gemma 4 31B-it auf vLLM 0.21.0 mit A100s: Probleme mit Structured Output

Warum es zählt

Wer Gemma 4 31B-it lokal mit vLLM und Structured Output betreibt, muss mit Kompatibilitätsproblemen zwischen vLLM 0.21.0, dem Reasoning-Parser und dem Chat-Template rechnen – besonders beim kombinierten Einsatz von --reasoning-parser und --enable-auto-tool-choice.

— Lumeric Redaktion

Nutzer Thagor schildert auf r/LocalLLaMA ein praktisches Deployment-Problem: Er betreibt Googles Gemma 4 31B-it auf zwei NVLink-verbundenen A100-GPUs via vLLM 0.21.0 (Container vllm/vllm-openai:v0.21.0-cu129) mit Tensor-Parallelisierung (tensor-parallel-size 2). Der Zugriff erfolgt über LiteLLM als Proxy, die Ausgaben werden als strukturiertes JSON angefordert. Im Vergleich zur offiziellen Google-API, die einwandfreie Resultate liefert, produziert das lokale Setup laut Bericht inkorrekte oder gar kein valides JSON. Beide Setups verwenden BF16 und identische Parameter. Auffällig in der Launch-Konfiguration ist die gleichzeitige Nutzung von --reasoning-parser gemma4 und --enable-auto-tool-choice sowie ein eigenes Chat-Template mit aktiviertem Thinking-Modus. Die Ursache könnte in einer Wechselwirkung zwischen dem Reasoning-Parser, dem Tool-Call-Parser und dem Structured-Output-Mechanismus von vLLM liegen – eine Kombination, die in dieser Version möglicherweise noch nicht vollständig unterstützt wird. Der Post ist ein Praxisbeispiel für die Fallstricke beim lokalen Deployment großer Modelle mit komplexen Parsing-Pipelines.

Was wir noch wissen

Zwei NVLink-A100s, Tensor-Parallel-Size 2, GPU-Memory-Utilization 0.95
Container: vllm/vllm-openai:v0.21.0-cu129, max-model-len 65536, max-num-seqs 4
Gleichzeitiger Einsatz von --reasoning-parser gemma4 und --tool-call-parser gemma4 – mögliche Konfliktquelle
Chat-Template mit '{"enable_thinking": true}' aktiviert, eigenes Gemma-Chat-Template verwendet
Google-API liefert mit identischen Parametern korrekte JSON-Ausgaben; lokales Setup versagt

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 31B-it auf vLLM 0.21.0 mit A100s: Probleme mit Structured Output

Toolsv0 GPT Vercel

CompaniesOpenAI Google DeepMind

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Zwei NVLink-A100s, Tensor-Parallel-Size 2, GPU-Memory-Utilization 0.95
Container: vllm/vllm-openai:v0.21.0-cu129, max-model-len 65536, max-num-seqs 4
Gleichzeitiger Einsatz von --reasoning-parser gemma4 und --tool-call-parser gemma4 – mögliche Konfliktquelle
Chat-Template mit '{"enable_thinking": true}' aktiviert, eigenes Gemma-Chat-Template verwendet
Google-API liefert mit identischen Parametern korrekte JSON-Ausgaben; lokales Setup versagt

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 31B-it auf vLLM 0.21.0 mit A100s: Probleme mit Structured Output

Frag die KI zum Artikel

Verwandte Beiträge

Gemma 4 31B-it auf vLLM 0.21.0 mit A100s: Probleme mit Structured Output

Frag die KI zum Artikel

Verwandte Beiträge