Hunyuan Hy3 + Opus-Routing: 400 Agent-Schritte für 15,60 USD
Der Reddit-Nutzer breadislifeee beschreibt ein Wochenend-Projekt: Frustriert von monatlichen Claude-Opus-Rechnungen über 160 USD, implementierte er einen Routing-Layer auf Basis von vLLM 0.8 mit zwei A100-GPUs und aktivierter automatischer Tool-Choice. Die Logik ist einfach: Routine-Agentenschritte gehen an Hunyuan Hy3 (21B aktive Parameter, MoE-Architektur), komplexe Schritte weiterhin an Opus. Von 400 Schritten auf einem 12.000-Zeilen-Python-Repo übernahm Hy3 preview 380 Schritte à ~0,02 USD (7,60 USD gesamt); Opus erledigte die verbleibenden 20 à 0,40 USD (8 USD). Gesamtkosten: 15,60 USD. Das Deaktivieren des Reasoning-Modus (no_think) auf Routine-Schritten reduzierte den Token-Verbrauch um rund 30 %. DeepSeek V4 erreichte laut Autor ähnliche Genauigkeit, war bei Search-Loop-Schritten aber etwa 2× langsamer. Schwachstelle bleibt die Auflösung zirkulärer Imports: Bei einem 14-Datei-Refactor halluzinierte das Modell wiederholt nicht existente Modul-Pfade. Tencent gibt für Hy3 eine Step-Success-Rate von 99,99 % über 495-Schritt-Workflows in der Produktion an – was der Autor für lineare Workflows bestätigt, bei verschachtelten Dependency-Graphen aber nicht reproduzieren konnte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Hunyuan Hy3 + Opus-Routing: 400 Agent-Schritte für 15,60 USD
Der Reddit-Nutzer breadislifeee beschreibt ein Wochenend-Projekt: Frustriert von monatlichen Claude-Opus-Rechnungen über 160 USD, implementierte er einen Routing-Layer auf Basis von vLLM 0.8 mit zwei A100-GPUs und aktivierter automatischer Tool-Choice. Die Logik ist einfach: Routine-Agentenschritte gehen an Hunyuan Hy3 (21B aktive Parameter, MoE-Architektur), komplexe Schritte weiterhin an Opus. Von 400 Schritten auf einem 12.000-Zeilen-Python-Repo übernahm Hy3 preview 380 Schritte à ~0,02 USD (7,60 USD gesamt); Opus erledigte die verbleibenden 20 à 0,40 USD (8 USD). Gesamtkosten: 15,60 USD. Das Deaktivieren des Reasoning-Modus (no_think) auf Routine-Schritten reduzierte den Token-Verbrauch um rund 30 %. DeepSeek V4 erreichte laut Autor ähnliche Genauigkeit, war bei Search-Loop-Schritten aber etwa 2× langsamer. Schwachstelle bleibt die Auflösung zirkulärer Imports: Bei einem 14-Datei-Refactor halluzinierte das Modell wiederholt nicht existente Modul-Pfade. Tencent gibt für Hy3 eine Step-Success-Rate von 99,99 % über 495-Schritt-Workflows in der Produktion an – was der Autor für lineare Workflows bestätigt, bei verschachtelten Dependency-Graphen aber nicht reproduzieren konnte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.