Xiaomi MiMo v2.5 mit Sparse MoE-Architektur erhält llama.cpp-Unterstützung

Warum es zählt

MiMo v2.5 demonstriert eine praktische Sparse-MoE-Implementierung für multimodale Aufgaben und wird durch die llama.cpp-Integration für lokale Inference auf Consumer-Hardware zugänglich – relevant für Entwickler, die umfassende Multi-Modalität ohne Cloud-Abhängigkeit einsetzen wollen.

— Lumeric Redaktion

Xiaomi veröffentlicht MiMo v2.5 als Sparse-Mixture-of-Experts-Modell mit 310B Gesamtparametern, von denen zur Laufzeit 15B aktiviert werden. Das Modell kombiniert Text-, Bild-, Video- und Audio-Verarbeitung in einer einzigen Architektur: Eine 729M-Parameter-Vision-Encoder (ViT mit 28 Schichten), ein 261M-Audio-Transformer (24 Schichten) und ein Multi-Token-Prediction-Modul (329M Parameter, 3 Schichten) speisen in den Sparse-MoE-Kern ein. Die Kontextlänge reicht bis 1M Token. Die jetzt in llama.cpp integrierte Unterstützung ermöglicht die Inferenz auf lokalen Systemen – ein wichtiger Schritt für praktische Deployment-Szenarien außerhalb von Cloud-Plattformen.

Was wir noch wissen

Sparse-MoE-Design: 310B Gesamtparameter, aber nur 15B zur Laufzeit aktiviert, was Inference-Kosten senkt
Vision Encoder basiert auf ViT-Architektur mit 28 Schichten (24 SWA + 4 Full Attention)
Audio Transformer mit 24 Schichten: 12 SWA- + 12 vollständige Attention-Layer
Multi-Token-Prediction mit eigenständigen 329M Parametern über 3 Schichten
llama.cpp Pull Request #22493 bringt Unterstützung für lokale Inference auf Consumer-Hardware

Quelle lesenreddit.com

310B Parameter (15B aktiviert)

Sparse-MoE-Architektur

Foundation Modelle Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Xiaomi MiMo v2.5 mit Sparse MoE-Architektur erhält llama.cpp-Unterstützung

ToolsLlama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Sparse-MoE-Design: 310B Gesamtparameter, aber nur 15B zur Laufzeit aktiviert, was Inference-Kosten senkt
Vision Encoder basiert auf ViT-Architektur mit 28 Schichten (24 SWA + 4 Full Attention)
Audio Transformer mit 24 Schichten: 12 SWA- + 12 vollständige Attention-Layer
Multi-Token-Prediction mit eigenständigen 329M Parametern über 3 Schichten
llama.cpp Pull Request #22493 bringt Unterstützung für lokale Inference auf Consumer-Hardware

310B Parameter (15B aktiviert)

Sparse-MoE-Architektur

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Xiaomi MiMo v2.5 mit Sparse MoE-Architektur erhält llama.cpp-Unterstützung

Frag die KI zum Artikel

Verwandte Beiträge

Xiaomi MiMo v2.5 mit Sparse MoE-Architektur erhält llama.cpp-Unterstützung

Frag die KI zum Artikel

Verwandte Beiträge