Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln
In Produktion fiel dem LightSeek-Team auf, dass in SGLang und vLLM Tokenisierung und Detokenisierung trotz Rust/C++-Bibliotheken unter der Haube durch Python-Aufrufe und damit den GIL limitiert werden. Bei großangelegtem Prefill-Decode-Disaggregation oder Expert-Parallelismus über GPU-Cluster wurden die CPUs zum Flaschenhals — teure GPUs warteten auf Token-Input. Die Antwort ist der Shepherd Model Gateway (SMG), eine vollständige Reimplementierung aller CPU-gebundenen Serving-Aufgaben in Rust: Tokenisierung mit zweistufigem Cache (L0 Exact-Match, L1 Prefix-Aware), Reasoning- und Tool-Call-Parsing für Cohere, DeepSeek, Llama, Kimi-K2, Qwen Coder u. a. in Echtzeit, sowie Multimodal-Preprocessing als komplette Rust-Neuimplementierung des HuggingFace-Transformers-Bildprozessors. Inference-Engines empfangen nur vorab tokenisierte Eingaben bzw. vorverarbeitete Tensoren via gRPC — kein Python, kein GIL. MCP-Tool-Orchestrierung, Chat-History-Management mit PostgreSQL/Redis/OracleDB, WASM-Middleware für Custom-Plugins sowie ein öffentliches gRPC-Protokoll (smg-grpc-proto auf PyPI) runden das System ab. SMG wurde von Simo Lin und Chang Su innerhalb von ca. sechs Monaten aufgebaut und positioniert sich als komplementäre Schicht zu NVIDIA Dynamo und llm-d.
- Zwei-Level-Tokenizer-Cache: L0 für Exact-Match-Prompts, L1 prefix-aware an Special-Token-Grenzen
- Multimodal-Preprocessing komplett in Rust reimplementiert — Llama 4 Vision, Qwen VL und TensorRT-LLM unterstützt
- WASM-Middleware-Plugins für Auth, PII-Redaktion, Cost-Tracking ohne Code-Fork — laut Autoren Branchenpremiere
- Protokoll smg-grpc-proto auf PyPI veröffentlicht; Gateway und Engine können unabhängig voneinander aktualisiert werden
- Gebaut von Simo Lin und Chang Su (LightSeek Foundation) in rund sechs Monaten mit 13 Releases
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
- MEINUNGreddit.com5d
Community-Diskussion: Beste kleine Sprachmodelle ohne GPU
- FORSCHUNGarxiv.org1w
CoLLM vereint Federated Fine-Tuning und Inferenz auf geteilten Edge-GPUs
- FORSCHUNGarxiv.org6d
PALS: Power-aware LLM-Serving steigert Energieeffizienz bei MoE-Modellen um 26 %
Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln
In Produktion fiel dem LightSeek-Team auf, dass in SGLang und vLLM Tokenisierung und Detokenisierung trotz Rust/C++-Bibliotheken unter der Haube durch Python-Aufrufe und damit den GIL limitiert werden. Bei großangelegtem Prefill-Decode-Disaggregation oder Expert-Parallelismus über GPU-Cluster wurden die CPUs zum Flaschenhals — teure GPUs warteten auf Token-Input. Die Antwort ist der Shepherd Model Gateway (SMG), eine vollständige Reimplementierung aller CPU-gebundenen Serving-Aufgaben in Rust: Tokenisierung mit zweistufigem Cache (L0 Exact-Match, L1 Prefix-Aware), Reasoning- und Tool-Call-Parsing für Cohere, DeepSeek, Llama, Kimi-K2, Qwen Coder u. a. in Echtzeit, sowie Multimodal-Preprocessing als komplette Rust-Neuimplementierung des HuggingFace-Transformers-Bildprozessors. Inference-Engines empfangen nur vorab tokenisierte Eingaben bzw. vorverarbeitete Tensoren via gRPC — kein Python, kein GIL. MCP-Tool-Orchestrierung, Chat-History-Management mit PostgreSQL/Redis/OracleDB, WASM-Middleware für Custom-Plugins sowie ein öffentliches gRPC-Protokoll (smg-grpc-proto auf PyPI) runden das System ab. SMG wurde von Simo Lin und Chang Su innerhalb von ca. sechs Monaten aufgebaut und positioniert sich als komplementäre Schicht zu NVIDIA Dynamo und llm-d.
- Zwei-Level-Tokenizer-Cache: L0 für Exact-Match-Prompts, L1 prefix-aware an Special-Token-Grenzen
- Multimodal-Preprocessing komplett in Rust reimplementiert — Llama 4 Vision, Qwen VL und TensorRT-LLM unterstützt
- WASM-Middleware-Plugins für Auth, PII-Redaktion, Cost-Tracking ohne Code-Fork — laut Autoren Branchenpremiere
- Protokoll smg-grpc-proto auf PyPI veröffentlicht; Gateway und Engine können unabhängig voneinander aktualisiert werden
- Gebaut von Simo Lin und Chang Su (LightSeek Foundation) in rund sechs Monaten mit 13 Releases
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
- MEINUNGreddit.com5d
Community-Diskussion: Beste kleine Sprachmodelle ohne GPU
- FORSCHUNGarxiv.org1w
CoLLM vereint Federated Fine-Tuning und Inferenz auf geteilten Edge-GPUs
- FORSCHUNGarxiv.org6d
PALS: Power-aware LLM-Serving steigert Energieeffizienz bei MoE-Modellen um 26 %