Cactus Hybrid Router: 65k-Param-Modell routet Aufgaben zwischen Gemma4-2B und Gemini

Warum es zählt

Edge-Cloud-Routing mit minimalem Overhead ermöglicht deutlich günstigere Inferenz: Einfache Anfragen laufen lokal, nur komplexe Tasks gehen in die Cloud – das senkt Kosten und Latenz für Produktivsysteme konkret.

— Lumeric Redaktion

Das Cactus-Team hat nach der Vorstellung des „Simple Attention Network" und des 26M-Parameter-Funktionsaufruf-Modells „Needle" nun den „Cactus Hybrid Router" veröffentlicht. Dieser Router hat nur 65.000 Parameter und entscheidet on-the-fly, ob eine eingehende Anfrage lokal auf einem Edge-Modell (Gemma4-2B) bearbeitet oder an ein frontier Cloud-Modell (Gemini) weitergeleitet wird. Laut den Entwicklern genügt es, 15–55 % der Tasks in die Cloud zu routen, um die Qualitätsniveaus von Gemini-2.5-Flash-Lite zu erreichen. Der Router unterstützt multimodale Eingaben – Text, Bild und Audio – über ein einheitliches 64k-Kontextfenster. Cactus betont außerdem die Robustheit bei quantisierten Edge-Modellen: Die eigene 4-Bit-Uniform-Quantisierung („Cactus Quants") kommt laut dem Post nahe an FP16-Qualität heran. Das Projekt ist auf GitHub unter cactus-compute/cactus verfügbar. Ziel ist es, rechenintensive und triviale Anfragen zu trennen – etwa „Was ist die Hauptstadt von Frankreich?" soll nicht über teure Trillion-Parameter-Modelle in der Cloud laufen.

Quelle lesenreddit.com

65k Parameter

Größe des Cactus Hybrid Router

Inferenz Infra Foundation Modelle Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cactus Hybrid Router: 65k-Param-Modell routet Aufgaben zwischen Gemma4-2B und Gemini

ToolsGemini

Warum es zählt

— Lumeric Redaktion

65k Parameter

Größe des Cactus Hybrid Router

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cactus Hybrid Router: 65k-Param-Modell routet Aufgaben zwischen Gemma4-2B und Gemini

Frag die KI zum Artikel

Verwandte Beiträge

Cactus Hybrid Router: 65k-Param-Modell routet Aufgaben zwischen Gemma4-2B und Gemini

Frag die KI zum Artikel

Verwandte Beiträge