ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL
ServiceNow-AI dokumentiert eine detaillierte Fallstudie zur vLLM-Migration von Version 0.8.5 zu 0.18.1 im Kontext ihres PipelineRL-Systems. Das Kernanliegen war nicht die Optimierung, sondern die Herstellung von Backend-Parität: Das Inference-Engine liefert Token-Logprobs an den Trainer, der daraus Policy-Ratios, KL-Divergenz, Clip-Rate, Entropy und Rewards berechnet. Jede Abweichung in der Logprob-Berechnung destabilisiert das Training messbar (sichtbar in Abweichungen bei clip_rate, KL, entropy und reward).
Die Autoren identifizierten vier konkrete Fehlerquellen und behoben sie systematisch: (1) Logprob-Semantik – V1 gab Raw-Model-Outputs zurück, nicht die Post-Processing-Distribution (gelöst durch `logprobs_mode=processed_logprobs`); (2) Runtime-Defaults wie Prefix-Caching und Async-Scheduling, die unterschiedliche Execution-Paths verursachten; (3) Inflight-Weight-Updates, die Caches bei Online-RL-Updates nicht konsistent invalidiert haben; (4) fp32-Precision in der finalen lm_head-Projektion. Der methodische Ansatz – Backend-Verhalten erst validieren, dann RL-Objective neu bewerten – wird als Best Practice für Online-RL-Systeme (PPO, GRPO, GSPO) beschrieben.
- vLLM V0.8.5 vs. V1 (0.18.1): Referenz-Training zeigte messbare Divergenzen in Clip-Rate und Entropy nach wenigen Steps
- Prefix-Caching in V1 reused States über Weight-Update-Grenzen hinweg – wurde deaktiviert um V0-Semantik nachzubilden
- Finale Konfiguration: use_v1: true, enable-prefix-caching: false, async-scheduling: false, logprobs-mode: processed_logprobs
- Diagnose-Heuristik: Semantik → Inference-Path → Objective-Mismatch – Objective-Vermutungen zuerst ausgeschlossen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
LLM-basierte Schwachstellenerkennung: GRPO-RL übertrifft SFT und Preference-Optimierung
- FORSCHUNGarxiv.org1w
Training-Inference-Mismatch in LLM-RL als Ursache für Trainingsinstabilität identifiziert
- FORSCHUNGarxiv.org3w
Bayesianisches Framework für sichere LLM-Migration in Produktionssystemen
- FORSCHUNGarxiv.org2d
RLVR-Studie: Verifier-Qualität und Rechenleistung sind nicht austauschbar
ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL
ServiceNow-AI dokumentiert eine detaillierte Fallstudie zur vLLM-Migration von Version 0.8.5 zu 0.18.1 im Kontext ihres PipelineRL-Systems. Das Kernanliegen war nicht die Optimierung, sondern die Herstellung von Backend-Parität: Das Inference-Engine liefert Token-Logprobs an den Trainer, der daraus Policy-Ratios, KL-Divergenz, Clip-Rate, Entropy und Rewards berechnet. Jede Abweichung in der Logprob-Berechnung destabilisiert das Training messbar (sichtbar in Abweichungen bei clip_rate, KL, entropy und reward).
Die Autoren identifizierten vier konkrete Fehlerquellen und behoben sie systematisch: (1) Logprob-Semantik – V1 gab Raw-Model-Outputs zurück, nicht die Post-Processing-Distribution (gelöst durch `logprobs_mode=processed_logprobs`); (2) Runtime-Defaults wie Prefix-Caching und Async-Scheduling, die unterschiedliche Execution-Paths verursachten; (3) Inflight-Weight-Updates, die Caches bei Online-RL-Updates nicht konsistent invalidiert haben; (4) fp32-Precision in der finalen lm_head-Projektion. Der methodische Ansatz – Backend-Verhalten erst validieren, dann RL-Objective neu bewerten – wird als Best Practice für Online-RL-Systeme (PPO, GRPO, GSPO) beschrieben.
- vLLM V0.8.5 vs. V1 (0.18.1): Referenz-Training zeigte messbare Divergenzen in Clip-Rate und Entropy nach wenigen Steps
- Prefix-Caching in V1 reused States über Weight-Update-Grenzen hinweg – wurde deaktiviert um V0-Semantik nachzubilden
- Finale Konfiguration: use_v1: true, enable-prefix-caching: false, async-scheduling: false, logprobs-mode: processed_logprobs
- Diagnose-Heuristik: Semantik → Inference-Path → Objective-Mismatch – Objective-Vermutungen zuerst ausgeschlossen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
LLM-basierte Schwachstellenerkennung: GRPO-RL übertrifft SFT und Preference-Optimierung
- FORSCHUNGarxiv.org1w
Training-Inference-Mismatch in LLM-RL als Ursache für Trainingsinstabilität identifiziert
- FORSCHUNGarxiv.org3w
Bayesianisches Framework für sichere LLM-Migration in Produktionssystemen
- FORSCHUNGarxiv.org2d
RLVR-Studie: Verifier-Qualität und Rechenleistung sind nicht austauschbar