Qwen3-VL-Embedding-2B läuft via RKLLM auf Orange Pi 5b
Der Reddit-Nutzer /u/atineiatte hat das Qwen3-VL-Embedding-2B-Modell von Alibaba/Qwen als erster auf einem Orange Pi 5b mit dem RKLLM-Framework zum Laufen gebracht. Der Orange Pi 5b basiert auf dem Rockchip RK3588-SoC, der eine eigene NPU mitbringt, für die RKLLM als Inferenz-Stack entwickelt wurde. Im Demo-Szenario vergleicht das Modell mehr als 1.300 Textphrasen auf semantische Ähnlichkeit zu einem jeweils aktuellen Webcam-Frame – bei einem Durchsatz von ca. einem Bild pro 10 Sekunden. Qwen3-VL-Embedding-2B ist ein multimodales Embedding-Modell, das sowohl Bild- als auch Texteingaben in einen gemeinsamen Vektorraum einbettet und damit Cross-Modal-Suche oder Klassifikation ermöglicht. Die Portierung war laut Autor lange ausgeblieben, obwohl Bedarf in der Community bestand.
- Demo vergleicht >1.300 Phrasen per Cosine-Similarity gegen ein Live-Webcam-Bild in Echtzeit
- Durchsatz: ~1 Bild alle 10 Sekunden auf dem RK3588-SoC des Orange Pi 5b
- RKLLM ist der offizielle Rockchip-Inferenz-Stack mit NPU-Beschleunigung
- Laut Autor war bislang keine funktionierende Implementierung für diese Plattform verfügbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3-VL-Embedding-2B läuft via RKLLM auf Orange Pi 5b
Der Reddit-Nutzer /u/atineiatte hat das Qwen3-VL-Embedding-2B-Modell von Alibaba/Qwen als erster auf einem Orange Pi 5b mit dem RKLLM-Framework zum Laufen gebracht. Der Orange Pi 5b basiert auf dem Rockchip RK3588-SoC, der eine eigene NPU mitbringt, für die RKLLM als Inferenz-Stack entwickelt wurde. Im Demo-Szenario vergleicht das Modell mehr als 1.300 Textphrasen auf semantische Ähnlichkeit zu einem jeweils aktuellen Webcam-Frame – bei einem Durchsatz von ca. einem Bild pro 10 Sekunden. Qwen3-VL-Embedding-2B ist ein multimodales Embedding-Modell, das sowohl Bild- als auch Texteingaben in einen gemeinsamen Vektorraum einbettet und damit Cross-Modal-Suche oder Klassifikation ermöglicht. Die Portierung war laut Autor lange ausgeblieben, obwohl Bedarf in der Community bestand.
- Demo vergleicht >1.300 Phrasen per Cosine-Similarity gegen ein Live-Webcam-Bild in Echtzeit
- Durchsatz: ~1 Bild alle 10 Sekunden auf dem RK3588-SoC des Orange Pi 5b
- RKLLM ist der offizielle Rockchip-Inferenz-Stack mit NPU-Beschleunigung
- Laut Autor war bislang keine funktionierende Implementierung für diese Plattform verfügbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.