Xiaomi MiMo v2.5 mit Sparse MoE-Architektur erhält llama.cpp-Unterstützung
Xiaomi veröffentlicht MiMo v2.5 als Sparse-Mixture-of-Experts-Modell mit 310B Gesamtparametern, von denen zur Laufzeit 15B aktiviert werden. Das Modell kombiniert Text-, Bild-, Video- und Audio-Verarbeitung in einer einzigen Architektur: Eine 729M-Parameter-Vision-Encoder (ViT mit 28 Schichten), ein 261M-Audio-Transformer (24 Schichten) und ein Multi-Token-Prediction-Modul (329M Parameter, 3 Schichten) speisen in den Sparse-MoE-Kern ein. Die Kontextlänge reicht bis 1M Token. Die jetzt in llama.cpp integrierte Unterstützung ermöglicht die Inferenz auf lokalen Systemen – ein wichtiger Schritt für praktische Deployment-Szenarien außerhalb von Cloud-Plattformen.
- Sparse-MoE-Design: 310B Gesamtparameter, aber nur 15B zur Laufzeit aktiviert, was Inference-Kosten senkt
- Vision Encoder basiert auf ViT-Architektur mit 28 Schichten (24 SWA + 4 Full Attention)
- Audio Transformer mit 24 Schichten: 12 SWA- + 12 vollständige Attention-Layer
- Multi-Token-Prediction mit eigenständigen 329M Parametern über 3 Schichten
- llama.cpp Pull Request #22493 bringt Unterstützung für lokale Inference auf Consumer-Hardware
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
MiMo v2.5 erhält Vision-Support in llama.cpp
- MEINUNGreddit.com3w
MTP-Unterstützung kommt zu llama.cpp – erste Modelle identifiziert
- LAUNCHreddit.com2w
Sarvam MoE-Architektur erhält llama.cpp-Support: 30B und 105B Modelle
- LAUNCHreddit.com2w
Unsloth veröffentlicht MiMo-V2.5 als GGUF-Quantisierung auf Hugging Face
Xiaomi MiMo v2.5 mit Sparse MoE-Architektur erhält llama.cpp-Unterstützung
Xiaomi veröffentlicht MiMo v2.5 als Sparse-Mixture-of-Experts-Modell mit 310B Gesamtparametern, von denen zur Laufzeit 15B aktiviert werden. Das Modell kombiniert Text-, Bild-, Video- und Audio-Verarbeitung in einer einzigen Architektur: Eine 729M-Parameter-Vision-Encoder (ViT mit 28 Schichten), ein 261M-Audio-Transformer (24 Schichten) und ein Multi-Token-Prediction-Modul (329M Parameter, 3 Schichten) speisen in den Sparse-MoE-Kern ein. Die Kontextlänge reicht bis 1M Token. Die jetzt in llama.cpp integrierte Unterstützung ermöglicht die Inferenz auf lokalen Systemen – ein wichtiger Schritt für praktische Deployment-Szenarien außerhalb von Cloud-Plattformen.
- Sparse-MoE-Design: 310B Gesamtparameter, aber nur 15B zur Laufzeit aktiviert, was Inference-Kosten senkt
- Vision Encoder basiert auf ViT-Architektur mit 28 Schichten (24 SWA + 4 Full Attention)
- Audio Transformer mit 24 Schichten: 12 SWA- + 12 vollständige Attention-Layer
- Multi-Token-Prediction mit eigenständigen 329M Parametern über 3 Schichten
- llama.cpp Pull Request #22493 bringt Unterstützung für lokale Inference auf Consumer-Hardware
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
MiMo v2.5 erhält Vision-Support in llama.cpp
- MEINUNGreddit.com3w
MTP-Unterstützung kommt zu llama.cpp – erste Modelle identifiziert
- LAUNCHreddit.com2w
Sarvam MoE-Architektur erhält llama.cpp-Support: 30B und 105B Modelle
- LAUNCHreddit.com2w
Unsloth veröffentlicht MiMo-V2.5 als GGUF-Quantisierung auf Hugging Face