Mistral Medium 3.5 auf AMD Strix Halo: 2 Stunden für 48k-Token-Prompt

Warum es zählt

Die Ergebnisse zeigen, dass aktuelle Consumer-Hardware (AMD Strix Halo) für große Modelle mit Extended Thinking praktisch ungeeignet ist. Wer lokale LLMs nutzen will, braucht entweder kleinere Modelle oder investiert in dedizierte Inferenz-Hardware – oder akzeptiert Batch-Processing über Nacht.

— Lumeric Redaktion

Was wir noch wissen

Getestet mit Mistral Medium 3.5 128B in Q5_K_XL Quantisierung über llama-server
Prompt-Phase: 4955 Sekunden für 48.349 Tokens (102,49 ms pro Token)
Thinking-Phase: 2652 Sekunden für 5.583 Tokens (475,14 ms pro Token) mit reasoning_effort=high
Benutzer nutzte Extended-Thinking für Codebase-Architektur-Fragen, Context-Window auf 80k gesetzt

Quelle lesenreddit.com

Throughput (Token/s) auf AMD Strix Halo · Spitzenwert

9.76%

Prompt Eval (48k tokens)

Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mistral Medium 3.5 auf AMD Strix Halo: 2 Stunden für 48k-Token-Prompt

ToolsLlama Mistral Hugging Face

CompaniesHugging Face Mistral AI AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Getestet mit Mistral Medium 3.5 128B in Q5_K_XL Quantisierung über llama-server
Prompt-Phase: 4955 Sekunden für 48.349 Tokens (102,49 ms pro Token)
Thinking-Phase: 2652 Sekunden für 5.583 Tokens (475,14 ms pro Token) mit reasoning_effort=high
Benutzer nutzte Extended-Thinking für Codebase-Architektur-Fragen, Context-Window auf 80k gesetzt

Throughput (Token/s) auf AMD Strix Halo · Spitzenwert

9.76%

Prompt Eval (48k tokens)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mistral Medium 3.5 auf AMD Strix Halo: 2 Stunden für 48k-Token-Prompt

Frag die KI zum Artikel

Verwandte Beiträge

Mistral Medium 3.5 auf AMD Strix Halo: 2 Stunden für 48k-Token-Prompt

Frag die KI zum Artikel

Verwandte Beiträge