Mistral Medium 3.5 auf AMD Strix Halo: 2 Stunden für 48k-Token-Prompt
Warum es zählt
Die Ergebnisse zeigen, dass aktuelle Consumer-Hardware (AMD Strix Halo) für große Modelle mit Extended Thinking praktisch ungeeignet ist. Wer lokale LLMs nutzen will, braucht entweder kleinere Modelle oder investiert in dedizierte Inferenz-Hardware – oder akzeptiert Batch-Processing über Nacht.
— Lumeric Redaktion
Ein Nutzer testete Mistral Medium 3.5 (128B) auf AMD Strix Halo und erreichte nur 9,76 Token/s bei Prompt-Verarbeitung und 2,1 Token/s beim Denken – insgesamt 2 Stunden für einen 48k-Token-Prompt mit Extended-Thinking.
Was wir noch wissen
- Getestet mit Mistral Medium 3.5 128B in Q5_K_XL Quantisierung über llama-server
- Prompt-Phase: 4955 Sekunden für 48.349 Tokens (102,49 ms pro Token)
- Thinking-Phase: 2652 Sekunden für 5.583 Tokens (475,14 ms pro Token) mit reasoning_effort=high
- Benutzer nutzte Extended-Thinking für Codebase-Architektur-Fragen, Context-Window auf 80k gesetzt
Throughput (Token/s) auf AMD Strix Halo · Spitzenwert
9.76%
Prompt Eval (48k tokens)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Mistral Medium 3.5 auf AMD Strix Halo: 2 Stunden für 48k-Token-Prompt
Warum es zählt
Die Ergebnisse zeigen, dass aktuelle Consumer-Hardware (AMD Strix Halo) für große Modelle mit Extended Thinking praktisch ungeeignet ist. Wer lokale LLMs nutzen will, braucht entweder kleinere Modelle oder investiert in dedizierte Inferenz-Hardware – oder akzeptiert Batch-Processing über Nacht.
— Lumeric Redaktion
Ein Nutzer testete Mistral Medium 3.5 (128B) auf AMD Strix Halo und erreichte nur 9,76 Token/s bei Prompt-Verarbeitung und 2,1 Token/s beim Denken – insgesamt 2 Stunden für einen 48k-Token-Prompt mit Extended-Thinking.
Was wir noch wissen
- Getestet mit Mistral Medium 3.5 128B in Q5_K_XL Quantisierung über llama-server
- Prompt-Phase: 4955 Sekunden für 48.349 Tokens (102,49 ms pro Token)
- Thinking-Phase: 2652 Sekunden für 5.583 Tokens (475,14 ms pro Token) mit reasoning_effort=high
- Benutzer nutzte Extended-Thinking für Codebase-Architektur-Fragen, Context-Window auf 80k gesetzt
Throughput (Token/s) auf AMD Strix Halo · Spitzenwert
9.76%
Prompt Eval (48k tokens)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.