Verteiltes ML-Checkpoint-Speichersystem auf 4× Raspberry Pi 4B

Warum es zählt

Das Projekt zeigt praxisnah, wie sich Checkpoint-Durabilität auf kleinen Heimclustern ohne Cloud-Objektspeicher realisieren lässt – inklusive konkreter Lösungen für atomare Schreibvorgänge, mDNS-Discovery und Backpressure bei langsamen SD-Karten.

— Lumeric Redaktion

Der Reddit-Nutzer East-Muffin-6472 hat ein vollständig Open-Source-Checkpoint-Speichersystem für kleine ML-Cluster entwickelt und dokumentiert. Das Setup besteht aus einem Mac Mini M4 als Koordinator sowie vier Raspberry Pi 4B-Nodes (je 4 GB RAM) als Worker. Der Koordinator splittet safetensors-Dateien in Shards und verteilt sie auf die Pi-Nodes; bei einem Restore greift das System automatisch auf Replikate zurück. Getestet wurde das System unter anderem mit einem 942-MB-Checkpoint. Im Entwicklungsprozess traten mehrere klassische Distributed-Systems-Probleme auf: nicht-atomare Checkpoint-Schreibvorgänge führten dazu, dass der Filesystem-Watcher teilweise unfertige Dateien detektierte; langsame SD-Karten der Pis erzeugten Backpressure bei der parallelen Shard-Replikation; fehlende Checksums in der Retry-Logik verursachten anfangs stille Korruptionsfehler; und mDNS-Discovery erwies sich als fehleranfällig bei Nodes, die während eines Transfers verschwinden oder neu beitreten. Das Monitoring erfolgt über einen Prometheus/Grafana/Loki-Stack ohne SSH-Zugriff. Der Autor betont, dass das Projekt vor allem ein praktisches Lernwerkzeug für TCP-Flow-Control, Backpressure-Handling und verteilte Fehlertoleranz war.

Was wir noch wissen

942-MB-Checkpoint als Testgröße für das Gesamtsystem dokumentiert
Shard-Größe hatte überraschend großen Einfluss auf den Durchsatz – zu kleine Shards erhöhten den Socket-Overhead stark
mDNS-Discovery ersetzt hardkodierte IPs, zeigte aber Probleme bei Node-Reconnects mid-Transfer
Filesystem-Watcher-Daemon retried unvollständige Checkpoints automatisch bis zur Finalisierung
Monitoring-Stack (Prometheus + Grafana + Loki) ermöglicht Betrieb komplett ohne SSH

Quelle lesenreddit.com

Inferenz Infra Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verteiltes ML-Checkpoint-Speichersystem auf 4× Raspberry Pi 4B

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

942-MB-Checkpoint als Testgröße für das Gesamtsystem dokumentiert
Shard-Größe hatte überraschend großen Einfluss auf den Durchsatz – zu kleine Shards erhöhten den Socket-Overhead stark
mDNS-Discovery ersetzt hardkodierte IPs, zeigte aber Probleme bei Node-Reconnects mid-Transfer
Filesystem-Watcher-Daemon retried unvollständige Checkpoints automatisch bis zur Finalisierung
Monitoring-Stack (Prometheus + Grafana + Loki) ermöglicht Betrieb komplett ohne SSH

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verteiltes ML-Checkpoint-Speichersystem auf 4× Raspberry Pi 4B

Frag die KI zum Artikel

Verwandte Beiträge

Verteiltes ML-Checkpoint-Speichersystem auf 4× Raspberry Pi 4B

Frag die KI zum Artikel

Verwandte Beiträge