vLLM ROCm als experimentelles Backend in Lemonade integriert

CompaniesAMD

Warum es zählt

AMD-GPU-Nutzer können damit .safetensors-Modelle direkt über vLLM betreiben, ohne GGUF-Konvertierung – ein relevanter Workflow-Gewinn für lokale Inferenz auf ROCm-Hardware. Das Backend ist experimentell; Community-Feedback soll die weitere Entwicklung steuern.

— Lumeric Redaktion

Das quelloffene Lemonade-SDK hat vLLM mit ROCm-Unterstützung als experimentelles Backend aufgenommen. Der Beitrag stammt von AMD-Entwickler u/jfowers_amd, die eigentliche Integration wurde von u/krishna2910-amd, u/mikkoph und u/sa1sr1 umgesetzt. Das neue Backend erlaubt es, Sprachmodelle im .safetensors-Format direkt auszuführen, ohne sie zuvor ins GGUF-Format umwandeln zu müssen – ein Schritt, der bislang für llama.cpp nötig war. Die Einrichtung erfolgt über zwei CLI-Befehle: `lemonade backends install vllm:rocm` und `lemonade run Qwen3.5-0.8B-vLLM`. Als Testmodell wird Qwen3.5-0.8B genannt. Das Team bezeichnet den Stand als experimentell: Kernfunktionen sind implementiert, bekannte Lücken existieren noch. Feedback der Community soll bestimmen, wie weit das Backend weiterentwickelt wird. Eine Quick-Start-Anleitung ist unter lemonade-server.ai verfügbar, der Quellcode auf GitHub.

Was wir noch wissen

Integration von AMD-Entwicklern (u/krishna2910-amd, u/mikkoph, u/sa1sr1) beigesteuert
Unterstützt .safetensors-Modelle direkt – keine GGUF-Konvertierung nötig
Testmodell im Quick-Start-Guide: Qwen3.5-0.8B-vLLM
Backend-Status: experimentell, Kernfunktionen vorhanden, bekannte Schwachstellen offen
Projekt verfügt über Discord-Community und öffentliches GitHub-Repository

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

vLLM ROCm als experimentelles Backend in Lemonade integriert

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Integration von AMD-Entwicklern (u/krishna2910-amd, u/mikkoph, u/sa1sr1) beigesteuert
Unterstützt .safetensors-Modelle direkt – keine GGUF-Konvertierung nötig
Testmodell im Quick-Start-Guide: Qwen3.5-0.8B-vLLM
Backend-Status: experimentell, Kernfunktionen vorhanden, bekannte Schwachstellen offen
Projekt verfügt über Discord-Community und öffentliches GitHub-Repository

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

vLLM ROCm als experimentelles Backend in Lemonade integriert

Frag die KI zum Artikel

Verwandte Beiträge

vLLM ROCm als experimentelles Backend in Lemonade integriert

Frag die KI zum Artikel

Verwandte Beiträge