ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL

Warum es zählt

Train-Inference-Mismatches in RL-Systemen können die Trainingsdynamik fundamental verändern. ServiceNows systematischer Ansatz zur Backend-Validierung vor Objective-Änderungen ist ein Best-Practice-Template für Online-RL-Migrationen bei PPO, GRPO und GSPO.

— Lumeric Redaktion

ServiceNow-AI dokumentiert eine detaillierte Fallstudie zur vLLM-Migration von Version 0.8.5 zu 0.18.1 im Kontext ihres PipelineRL-Systems. Das Kernanliegen war nicht die Optimierung, sondern die Herstellung von Backend-Parität: Das Inference-Engine liefert Token-Logprobs an den Trainer, der daraus Policy-Ratios, KL-Divergenz, Clip-Rate, Entropy und Rewards berechnet. Jede Abweichung in der Logprob-Berechnung destabilisiert das Training messbar (sichtbar in Abweichungen bei clip_rate, KL, entropy und reward).

Die Autoren identifizierten vier konkrete Fehlerquellen und behoben sie systematisch: (1) Logprob-Semantik – V1 gab Raw-Model-Outputs zurück, nicht die Post-Processing-Distribution (gelöst durch `logprobs_mode=processed_logprobs`); (2) Runtime-Defaults wie Prefix-Caching und Async-Scheduling, die unterschiedliche Execution-Paths verursachten; (3) Inflight-Weight-Updates, die Caches bei Online-RL-Updates nicht konsistent invalidiert haben; (4) fp32-Precision in der finalen lm_head-Projektion. Der methodische Ansatz – Backend-Verhalten erst validieren, dann RL-Objective neu bewerten – wird als Best Practice für Online-RL-Systeme (PPO, GRPO, GSPO) beschrieben.

Was wir noch wissen

vLLM V0.8.5 vs. V1 (0.18.1): Referenz-Training zeigte messbare Divergenzen in Clip-Rate und Entropy nach wenigen Steps
Prefix-Caching in V1 reused States über Weight-Update-Grenzen hinweg – wurde deaktiviert um V0-Semantik nachzubilden
Finale Konfiguration: use_v1: true, enable-prefix-caching: false, async-scheduling: false, logprobs-mode: processed_logprobs
Diagnose-Heuristik: Semantik → Inference-Path → Objective-Mismatch – Objective-Vermutungen zuerst ausgeschlossen

Quelle lesenhuggingface.co

Rl Inferenz Infra Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL

Toolsv0 Vercel

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

vLLM V0.8.5 vs. V1 (0.18.1): Referenz-Training zeigte messbare Divergenzen in Clip-Rate und Entropy nach wenigen Steps
Prefix-Caching in V1 reused States über Weight-Update-Grenzen hinweg – wurde deaktiviert um V0-Semantik nachzubilden
Finale Konfiguration: use_v1: true, enable-prefix-caching: false, async-scheduling: false, logprobs-mode: processed_logprobs
Diagnose-Heuristik: Semantik → Inference-Path → Objective-Mismatch – Objective-Vermutungen zuerst ausgeschlossen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL

Frag die KI zum Artikel

Verwandte Beiträge

ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL

Frag die KI zum Artikel

Verwandte Beiträge