20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten
Warum es zählt
Für Entwickler mit Consumer-GPUs zeigt der Test, welche Q4/Q6-GGUF-Quants tatsächlich in 6 GB passen und sich auf Agentenaufgaben verlässlich verhalten – Leaderboard-Scores auf Vollpräzision beantworten das nicht. Reasoning-Tuning kostet Token-Throughput, scheitert aber nicht grundsätzlich.
— Lumeric Redaktion
Gen tok/s @ 1k Context (6 GB RTX 4050) · Spitzenwert
207%
unsloth/lfm2.5-vl-1.6b
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten
Warum es zählt
Für Entwickler mit Consumer-GPUs zeigt der Test, welche Q4/Q6-GGUF-Quants tatsächlich in 6 GB passen und sich auf Agentenaufgaben verlässlich verhalten – Leaderboard-Scores auf Vollpräzision beantworten das nicht. Reasoning-Tuning kostet Token-Throughput, scheitert aber nicht grundsätzlich.
— Lumeric Redaktion
Gen tok/s @ 1k Context (6 GB RTX 4050) · Spitzenwert
207%
unsloth/lfm2.5-vl-1.6b
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.