vLLM ROCm als experimentelles Backend in Lemonade integriert
Das quelloffene Lemonade-SDK hat vLLM mit ROCm-Unterstützung als experimentelles Backend aufgenommen. Der Beitrag stammt von AMD-Entwickler u/jfowers_amd, die eigentliche Integration wurde von u/krishna2910-amd, u/mikkoph und u/sa1sr1 umgesetzt. Das neue Backend erlaubt es, Sprachmodelle im .safetensors-Format direkt auszuführen, ohne sie zuvor ins GGUF-Format umwandeln zu müssen – ein Schritt, der bislang für llama.cpp nötig war. Die Einrichtung erfolgt über zwei CLI-Befehle: `lemonade backends install vllm:rocm` und `lemonade run Qwen3.5-0.8B-vLLM`. Als Testmodell wird Qwen3.5-0.8B genannt. Das Team bezeichnet den Stand als experimentell: Kernfunktionen sind implementiert, bekannte Lücken existieren noch. Feedback der Community soll bestimmen, wie weit das Backend weiterentwickelt wird. Eine Quick-Start-Anleitung ist unter lemonade-server.ai verfügbar, der Quellcode auf GitHub.
- Integration von AMD-Entwicklern (u/krishna2910-amd, u/mikkoph, u/sa1sr1) beigesteuert
- Unterstützt .safetensors-Modelle direkt – keine GGUF-Konvertierung nötig
- Testmodell im Quick-Start-Guide: Qwen3.5-0.8B-vLLM
- Backend-Status: experimentell, Kernfunktionen vorhanden, bekannte Schwachstellen offen
- Projekt verfügt über Discord-Community und öffentliches GitHub-Repository
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1w
Lemonade v10.5.1 bringt MTP + ROCm 7.13 Quick-Start für Strix Halo
- LAUNCHreddit.com6d
lemon-mlx-engine integriert ROCm 7.13 für lokale LLM-Ausführung
- MEINUNGreddit.com2w
vLLM vs. llama.cpp: Lohnt sich vLLM für Solo-Nutzer?
- FORSCHUNGreddit.com3w
Gleichzeitiger CUDA+ROCm-Betrieb in llama.cpp mit neuem GGML-Backend
vLLM ROCm als experimentelles Backend in Lemonade integriert
Das quelloffene Lemonade-SDK hat vLLM mit ROCm-Unterstützung als experimentelles Backend aufgenommen. Der Beitrag stammt von AMD-Entwickler u/jfowers_amd, die eigentliche Integration wurde von u/krishna2910-amd, u/mikkoph und u/sa1sr1 umgesetzt. Das neue Backend erlaubt es, Sprachmodelle im .safetensors-Format direkt auszuführen, ohne sie zuvor ins GGUF-Format umwandeln zu müssen – ein Schritt, der bislang für llama.cpp nötig war. Die Einrichtung erfolgt über zwei CLI-Befehle: `lemonade backends install vllm:rocm` und `lemonade run Qwen3.5-0.8B-vLLM`. Als Testmodell wird Qwen3.5-0.8B genannt. Das Team bezeichnet den Stand als experimentell: Kernfunktionen sind implementiert, bekannte Lücken existieren noch. Feedback der Community soll bestimmen, wie weit das Backend weiterentwickelt wird. Eine Quick-Start-Anleitung ist unter lemonade-server.ai verfügbar, der Quellcode auf GitHub.
- Integration von AMD-Entwicklern (u/krishna2910-amd, u/mikkoph, u/sa1sr1) beigesteuert
- Unterstützt .safetensors-Modelle direkt – keine GGUF-Konvertierung nötig
- Testmodell im Quick-Start-Guide: Qwen3.5-0.8B-vLLM
- Backend-Status: experimentell, Kernfunktionen vorhanden, bekannte Schwachstellen offen
- Projekt verfügt über Discord-Community und öffentliches GitHub-Repository
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1w
Lemonade v10.5.1 bringt MTP + ROCm 7.13 Quick-Start für Strix Halo
- LAUNCHreddit.com6d
lemon-mlx-engine integriert ROCm 7.13 für lokale LLM-Ausführung
- MEINUNGreddit.com2w
vLLM vs. llama.cpp: Lohnt sich vLLM für Solo-Nutzer?
- FORSCHUNGreddit.com3w
Gleichzeitiger CUDA+ROCm-Betrieb in llama.cpp mit neuem GGML-Backend