20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten

ToolsLM Studio Claude GPT Qwen NVIDIA Hardware DeepSeek

CompaniesOpenAI DeepSeek NVIDIA Google DeepMind

Warum es zählt

Für Entwickler mit Consumer-GPUs zeigt der Test, welche Q4/Q6-GGUF-Quants tatsächlich in 6 GB passen und sich auf Agentenaufgaben verlässlich verhalten – Leaderboard-Scores auf Vollpräzision beantworten das nicht. Reasoning-Tuning kostet Token-Throughput, scheitert aber nicht grundsätzlich.

— Lumeric Redaktion

Quelle lesenreddit.com

Gen tok/s @ 1k Context (6 GB RTX 4050) · Spitzenwert

207%

unsloth/lfm2.5-vl-1.6b

Evals Benchmarks Foundation Modelle Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten

ToolsLM Studio Claude GPT Qwen NVIDIA Hardware DeepSeek

CompaniesOpenAI DeepSeek NVIDIA Google DeepMind

Warum es zählt

— Lumeric Redaktion

Gen tok/s @ 1k Context (6 GB RTX 4050) · Spitzenwert

207%

unsloth/lfm2.5-vl-1.6b

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten

Frag die KI zum Artikel

Verwandte Beiträge

20 kleine LLMs auf 6-GB-GPU im Vergleich: LFM2.5-VL-1.6B am schnellsten

Frag die KI zum Artikel

Verwandte Beiträge