Tmax-27B: Qwen3.6-basierter Terminal-Agent läuft per GGUF-Quant auf Consumer-GPUs
CompaniesHugging Face
Warum es zählt
Importance-Matrix-Kalibrierung rettet die Agenten-Performance bei 2-Bit-Quants: IQ2_XS (8,5 GiB) erzielt dieselbe 70% Pass-Rate wie IQ4_XS (14 GiB), während unkalibriertes Q2_K auf 50% fällt. Damit wird ein 27B-Terminal-Agent auf RTX-5070-Klasse-Hardware praxistauglich.
— Lumeric Redaktion
SWE-rebench (10 Instanzen, pass_rate) · Spitzenwert
50%
Q2_K (plain)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com3w
Qwen3.5 4B als PI-Agent: SOTA auf TerminalBench in der 4B-Klasse
- MEINUNGreddit.com2h
MiniMax 2.7 lokal auf 96 GB VRAM mit 1200 PP/s betrieben
- BENCHMARKreddit.com3w
20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten
- BENCHMARKpytorch.org3w
TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B
Tmax-27B: Qwen3.6-basierter Terminal-Agent läuft per GGUF-Quant auf Consumer-GPUs
CompaniesHugging Face
Warum es zählt
Importance-Matrix-Kalibrierung rettet die Agenten-Performance bei 2-Bit-Quants: IQ2_XS (8,5 GiB) erzielt dieselbe 70% Pass-Rate wie IQ4_XS (14 GiB), während unkalibriertes Q2_K auf 50% fällt. Damit wird ein 27B-Terminal-Agent auf RTX-5070-Klasse-Hardware praxistauglich.
— Lumeric Redaktion
SWE-rebench (10 Instanzen, pass_rate) · Spitzenwert
50%
Q2_K (plain)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com3w
Qwen3.5 4B als PI-Agent: SOTA auf TerminalBench in der 4B-Klasse
- MEINUNGreddit.com2h
MiniMax 2.7 lokal auf 96 GB VRAM mit 1200 PP/s betrieben
- BENCHMARKreddit.com3w
20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten
- BENCHMARKpytorch.org3w
TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B