Cactus Hybrid Router: 65k-Param-Modell routet Aufgaben zwischen Gemma4-2B und Gemini
Das Cactus-Team hat nach der Vorstellung des „Simple Attention Network" und des 26M-Parameter-Funktionsaufruf-Modells „Needle" nun den „Cactus Hybrid Router" veröffentlicht. Dieser Router hat nur 65.000 Parameter und entscheidet on-the-fly, ob eine eingehende Anfrage lokal auf einem Edge-Modell (Gemma4-2B) bearbeitet oder an ein frontier Cloud-Modell (Gemini) weitergeleitet wird. Laut den Entwicklern genügt es, 15–55 % der Tasks in die Cloud zu routen, um die Qualitätsniveaus von Gemini-2.5-Flash-Lite zu erreichen. Der Router unterstützt multimodale Eingaben – Text, Bild und Audio – über ein einheitliches 64k-Kontextfenster. Cactus betont außerdem die Robustheit bei quantisierten Edge-Modellen: Die eigene 4-Bit-Uniform-Quantisierung („Cactus Quants") kommt laut dem Post nahe an FP16-Qualität heran. Das Projekt ist auf GitHub unter cactus-compute/cactus verfügbar. Ziel ist es, rechenintensive und triviale Anfragen zu trennen – etwa „Was ist die Hauptstadt von Frankreich?" soll nicht über teure Trillion-Parameter-Modelle in der Cloud laufen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
HyDRA: Katalog-agnostisches LLM-Routing spart 54 % Kosten bei gleicher Qualität
- MEINUNGreddit.com2w
Lokale Modelle gut genug für Alltags-Workflows – Cloud nur noch für Reasoning?
- FORSCHUNGarxiv.org3w
Coral: Kosteneffiziente Multi-LLM-Bereitstellung über heterogene GPU-Cluster
- FORSCHUNGarxiv.org1w
INAR-VL: Intelligentes Edge-Cloud-Routing für Vision-Language-Modelle
Cactus Hybrid Router: 65k-Param-Modell routet Aufgaben zwischen Gemma4-2B und Gemini
Das Cactus-Team hat nach der Vorstellung des „Simple Attention Network" und des 26M-Parameter-Funktionsaufruf-Modells „Needle" nun den „Cactus Hybrid Router" veröffentlicht. Dieser Router hat nur 65.000 Parameter und entscheidet on-the-fly, ob eine eingehende Anfrage lokal auf einem Edge-Modell (Gemma4-2B) bearbeitet oder an ein frontier Cloud-Modell (Gemini) weitergeleitet wird. Laut den Entwicklern genügt es, 15–55 % der Tasks in die Cloud zu routen, um die Qualitätsniveaus von Gemini-2.5-Flash-Lite zu erreichen. Der Router unterstützt multimodale Eingaben – Text, Bild und Audio – über ein einheitliches 64k-Kontextfenster. Cactus betont außerdem die Robustheit bei quantisierten Edge-Modellen: Die eigene 4-Bit-Uniform-Quantisierung („Cactus Quants") kommt laut dem Post nahe an FP16-Qualität heran. Das Projekt ist auf GitHub unter cactus-compute/cactus verfügbar. Ziel ist es, rechenintensive und triviale Anfragen zu trennen – etwa „Was ist die Hauptstadt von Frankreich?" soll nicht über teure Trillion-Parameter-Modelle in der Cloud laufen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
HyDRA: Katalog-agnostisches LLM-Routing spart 54 % Kosten bei gleicher Qualität
- MEINUNGreddit.com2w
Lokale Modelle gut genug für Alltags-Workflows – Cloud nur noch für Reasoning?
- FORSCHUNGarxiv.org3w
Coral: Kosteneffiziente Multi-LLM-Bereitstellung über heterogene GPU-Cluster
- FORSCHUNGarxiv.org1w
INAR-VL: Intelligentes Edge-Cloud-Routing für Vision-Language-Modelle