Llama.cpp auf macOS: 100k-Kontext mit Qwen3.5-35B-A3B optimieren
Ein r/LocalLLaMA-Nutzer betreibt Qwen3.5-35B-A3B im GGUF-Format auf macOS mit der aktuellen Version von llama.cpp und erzielt rund 1.500 Tokens/Sekunde beim Prompt-Processing sowie 35–50 Tokens/Sekunde bei der Textgenerierung. Sein zentrales Problem: Die Suche nach optimalen llama.cpp-Flags für seinen spezifischen Use-Case (100k Kontext) kostet mehr Zeit als der eigentliche Betrieb. llama-bench kann zwar theoretisch helfen, testet aber nicht alle relevanten Flags und erfordert für viele Modelle einen unverhältnismäßigen Aufwand. Das Tool llama-optimus erscheint vielversprechend, scheint jedoch primär für kleinere Kontextbereiche ausgelegt zu sein. Der Nutzer fragt nach Community-Erfahrungen: Wie lässt sich llama-optimus für 100k-Kontexte konfigurieren, oder gibt es eine smartere Alternative zu llama-bench ohne vollständiges Brute-Force-Vorgehen? Gesucht wird ein reproduzierbarer Workflow, der bei häufig wechselnden Modellen schnell die besten Inference-Einstellungen liefert.
- Modell: Qwen3.5-35B-A3B im GGUF-Format, betrieben auf macOS mit llama.cpp
- Prompt-Processing-Speed: ~1.500 Tokens/Sek.; Generierungs-Speed: 35–50 Tokens/Sek.
- llama-optimus wird als vielversprechendes Optimierungs-Tool genannt, deckt 100k-Kontext aber scheinbar nicht ab
- llama-bench gilt als zu aufwendig für viele Modelle ohne gezielte Flag-Selektion
- Nutzer sucht Community-Workflow: Wie optimiert man systematisch ohne Brute-Force?
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
Community-Diskussion: LLM-Inferenz auf Radeon 7900XTX mit llama.cpp und Vulkan optimieren
- MEINUNGreddit.com2w
MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail
- MEINUNGreddit.com1d
llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k
- MEINUNGreddit.com2w
Stabiles 30B-Modell mit 256k Kontext auf 32-GB-Mac: Community-Diskussion
Llama.cpp auf macOS: 100k-Kontext mit Qwen3.5-35B-A3B optimieren
Ein r/LocalLLaMA-Nutzer betreibt Qwen3.5-35B-A3B im GGUF-Format auf macOS mit der aktuellen Version von llama.cpp und erzielt rund 1.500 Tokens/Sekunde beim Prompt-Processing sowie 35–50 Tokens/Sekunde bei der Textgenerierung. Sein zentrales Problem: Die Suche nach optimalen llama.cpp-Flags für seinen spezifischen Use-Case (100k Kontext) kostet mehr Zeit als der eigentliche Betrieb. llama-bench kann zwar theoretisch helfen, testet aber nicht alle relevanten Flags und erfordert für viele Modelle einen unverhältnismäßigen Aufwand. Das Tool llama-optimus erscheint vielversprechend, scheint jedoch primär für kleinere Kontextbereiche ausgelegt zu sein. Der Nutzer fragt nach Community-Erfahrungen: Wie lässt sich llama-optimus für 100k-Kontexte konfigurieren, oder gibt es eine smartere Alternative zu llama-bench ohne vollständiges Brute-Force-Vorgehen? Gesucht wird ein reproduzierbarer Workflow, der bei häufig wechselnden Modellen schnell die besten Inference-Einstellungen liefert.
- Modell: Qwen3.5-35B-A3B im GGUF-Format, betrieben auf macOS mit llama.cpp
- Prompt-Processing-Speed: ~1.500 Tokens/Sek.; Generierungs-Speed: 35–50 Tokens/Sek.
- llama-optimus wird als vielversprechendes Optimierungs-Tool genannt, deckt 100k-Kontext aber scheinbar nicht ab
- llama-bench gilt als zu aufwendig für viele Modelle ohne gezielte Flag-Selektion
- Nutzer sucht Community-Workflow: Wie optimiert man systematisch ohne Brute-Force?
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
Community-Diskussion: LLM-Inferenz auf Radeon 7900XTX mit llama.cpp und Vulkan optimieren
- MEINUNGreddit.com2w
MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail
- MEINUNGreddit.com1d
llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k
- MEINUNGreddit.com2w
Stabiles 30B-Modell mit 256k Kontext auf 32-GB-Mac: Community-Diskussion