Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln

ToolsQwen Model Context Protocol NVIDIA Hardware Llama DeepSeek Hugging Face

CompaniesDeepSeek Hugging Face NVIDIA Cohere

Warum es zählt

Wer SGLang oder vLLM unter hoher Last betreibt, kann durch GIL-bedingte CPU-Bottlenecks GPU-Kapazität verschwenden. SMG entkoppelt alle CPU-Aufgaben in einen eigenständigen Rust-Dienst, der unabhängig skaliert und ohne Python-Overhead auskommt — relevant vor allem bei Prefill-Decode-Disaggregation und großem Expert-Parallelismus.

— Lumeric Redaktion

In Produktion fiel dem LightSeek-Team auf, dass in SGLang und vLLM Tokenisierung und Detokenisierung trotz Rust/C++-Bibliotheken unter der Haube durch Python-Aufrufe und damit den GIL limitiert werden. Bei großangelegtem Prefill-Decode-Disaggregation oder Expert-Parallelismus über GPU-Cluster wurden die CPUs zum Flaschenhals — teure GPUs warteten auf Token-Input. Die Antwort ist der Shepherd Model Gateway (SMG), eine vollständige Reimplementierung aller CPU-gebundenen Serving-Aufgaben in Rust: Tokenisierung mit zweistufigem Cache (L0 Exact-Match, L1 Prefix-Aware), Reasoning- und Tool-Call-Parsing für Cohere, DeepSeek, Llama, Kimi-K2, Qwen Coder u. a. in Echtzeit, sowie Multimodal-Preprocessing als komplette Rust-Neuimplementierung des HuggingFace-Transformers-Bildprozessors. Inference-Engines empfangen nur vorab tokenisierte Eingaben bzw. vorverarbeitete Tensoren via gRPC — kein Python, kein GIL. MCP-Tool-Orchestrierung, Chat-History-Management mit PostgreSQL/Redis/OracleDB, WASM-Middleware für Custom-Plugins sowie ein öffentliches gRPC-Protokoll (smg-grpc-proto auf PyPI) runden das System ab. SMG wurde von Simo Lin und Chang Su innerhalb von ca. sechs Monaten aufgebaut und positioniert sich als komplementäre Schicht zu NVIDIA Dynamo und llm-d.

Was wir noch wissen

Zwei-Level-Tokenizer-Cache: L0 für Exact-Match-Prompts, L1 prefix-aware an Special-Token-Grenzen
Multimodal-Preprocessing komplett in Rust reimplementiert — Llama 4 Vision, Qwen VL und TensorRT-LLM unterstützt
WASM-Middleware-Plugins für Auth, PII-Redaktion, Cost-Tracking ohne Code-Fork — laut Autoren Branchenpremiere
Protokoll smg-grpc-proto auf PyPI veröffentlicht; Gateway und Engine können unabhängig voneinander aktualisiert werden
Gebaut von Simo Lin und Chang Su (LightSeek Foundation) in rund sechs Monaten mit 13 Releases

Quelle lesenpytorch.org

Inferenz Infra Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln

ToolsQwen Model Context Protocol NVIDIA Hardware Llama DeepSeek Hugging Face

CompaniesDeepSeek Hugging Face NVIDIA Cohere

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Zwei-Level-Tokenizer-Cache: L0 für Exact-Match-Prompts, L1 prefix-aware an Special-Token-Grenzen
Multimodal-Preprocessing komplett in Rust reimplementiert — Llama 4 Vision, Qwen VL und TensorRT-LLM unterstützt
WASM-Middleware-Plugins für Auth, PII-Redaktion, Cost-Tracking ohne Code-Fork — laut Autoren Branchenpremiere
Protokoll smg-grpc-proto auf PyPI veröffentlicht; Gateway und Engine können unabhängig voneinander aktualisiert werden
Gebaut von Simo Lin und Chang Su (LightSeek Foundation) in rund sechs Monaten mit 13 Releases

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln

Frag die KI zum Artikel

Verwandte Beiträge

Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln

Frag die KI zum Artikel

Verwandte Beiträge