Speichernutzung bei Qwen3.6-35B mit großem Context: Praxis-Fragen zur Hardware-Auslastung

Warum es zählt

Praktische Speicherverwaltung bei großen quantisierten Modellen ist entscheidend: falsche Schätzungen führen zu Paging-Nutzung, die SSDs verschleißt. Die Frage zeigt, dass selbst erfahrene Nutzer mit der Vorhersage echter Speichernutzung kämpfen — ein wichtiger Punkt für Hardware-Dimensionierung bei Local-LLM-Setups.

— Lumeric Redaktion

Ein Nutzer fragt, wie man die tatsächliche VRAM- und RAM-Nutzung bei der lokalen Inference von Qwen3.6 35B mit 512k Context-Token und quantisiertem Cache richtig schätzt, ohne das System durch Paging zu beschädigen.

Was wir noch wissen

Qwen3.6 35B in IQ4_NL_XL-Quantisierung mit separaten Q_8-Key- und Q_4-Value-Caches
512k Context-Token für 4 parallele Requests: Key-Cache bereits quantisiert, Value-Cache zu Q_4
Nutzer beobachtet Diskrepanz zwischen Schätzung (~18 GB RAM) und Windows-Commit (50,1 GB bei 32 GB physikalischer RAM)
--mlock für llama-server bereits aktiviert; Ziel: Paging-Nutzung minimieren

Quelle lesenreddit.com

Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Speichernutzung bei Qwen3.6-35B mit großem Context: Praxis-Fragen zur Hardware-Auslastung

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Qwen3.6 35B in IQ4_NL_XL-Quantisierung mit separaten Q_8-Key- und Q_4-Value-Caches
512k Context-Token für 4 parallele Requests: Key-Cache bereits quantisiert, Value-Cache zu Q_4
Nutzer beobachtet Diskrepanz zwischen Schätzung (~18 GB RAM) und Windows-Commit (50,1 GB bei 32 GB physikalischer RAM)
--mlock für llama-server bereits aktiviert; Ziel: Paging-Nutzung minimieren

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Speichernutzung bei Qwen3.6-35B mit großem Context: Praxis-Fragen zur Hardware-Auslastung

Frag die KI zum Artikel

Verwandte Beiträge

Speichernutzung bei Qwen3.6-35B mit großem Context: Praxis-Fragen zur Hardware-Auslastung

Frag die KI zum Artikel

Verwandte Beiträge