Step-3.7-Flash auf AMD ROCm: Long-Context-Bug ab ~94k Token und Thinking-Budget-Fix
ToolsLlama
CompaniesAMD
Warum es zählt
Wer Step-3.7-Flash mit ROCm für RAG oder Klassifikation nutzt, muss den Kontext auf unter 90k kappen und ein hartes Thinking-Budget setzen – sonst drohen leere Antworten durch Token-Budget-Erschöpfung. `enable_thinking:false` und `reasoning_effort` funktionieren nicht zuverlässig.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k
- MEINUNGreddit.com11h
Reasoning-Aktivierung in llama.cpp: Community sucht Lösung
- MEINUNGreddit.com2d
Reasoning-Modelle ignorieren Token-Limits in System-Prompts
- MEINUNGreddit.com4d
RAM-Overflow bei lokalem LLM: KV-Cache und VRAM-Limits erklärt
Step-3.7-Flash auf AMD ROCm: Long-Context-Bug ab ~94k Token und Thinking-Budget-Fix
ToolsLlama
CompaniesAMD
Warum es zählt
Wer Step-3.7-Flash mit ROCm für RAG oder Klassifikation nutzt, muss den Kontext auf unter 90k kappen und ein hartes Thinking-Budget setzen – sonst drohen leere Antworten durch Token-Budget-Erschöpfung. `enable_thinking:false` und `reasoning_effort` funktionieren nicht zuverlässig.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k
- MEINUNGreddit.com11h
Reasoning-Aktivierung in llama.cpp: Community sucht Lösung
- MEINUNGreddit.com2d
Reasoning-Modelle ignorieren Token-Limits in System-Prompts
- MEINUNGreddit.com4d
RAM-Overflow bei lokalem LLM: KV-Cache und VRAM-Limits erklärt