Verteiltes ML-Checkpoint-Speichersystem auf 4× Raspberry Pi 4B
Der Reddit-Nutzer East-Muffin-6472 hat ein vollständig Open-Source-Checkpoint-Speichersystem für kleine ML-Cluster entwickelt und dokumentiert. Das Setup besteht aus einem Mac Mini M4 als Koordinator sowie vier Raspberry Pi 4B-Nodes (je 4 GB RAM) als Worker. Der Koordinator splittet safetensors-Dateien in Shards und verteilt sie auf die Pi-Nodes; bei einem Restore greift das System automatisch auf Replikate zurück. Getestet wurde das System unter anderem mit einem 942-MB-Checkpoint. Im Entwicklungsprozess traten mehrere klassische Distributed-Systems-Probleme auf: nicht-atomare Checkpoint-Schreibvorgänge führten dazu, dass der Filesystem-Watcher teilweise unfertige Dateien detektierte; langsame SD-Karten der Pis erzeugten Backpressure bei der parallelen Shard-Replikation; fehlende Checksums in der Retry-Logik verursachten anfangs stille Korruptionsfehler; und mDNS-Discovery erwies sich als fehleranfällig bei Nodes, die während eines Transfers verschwinden oder neu beitreten. Das Monitoring erfolgt über einen Prometheus/Grafana/Loki-Stack ohne SSH-Zugriff. Der Autor betont, dass das Projekt vor allem ein praktisches Lernwerkzeug für TCP-Flow-Control, Backpressure-Handling und verteilte Fehlertoleranz war.
- 942-MB-Checkpoint als Testgröße für das Gesamtsystem dokumentiert
- Shard-Größe hatte überraschend großen Einfluss auf den Durchsatz – zu kleine Shards erhöhten den Socket-Overhead stark
- mDNS-Discovery ersetzt hardkodierte IPs, zeigte aber Probleme bei Node-Reconnects mid-Transfer
- Filesystem-Watcher-Daemon retried unvollständige Checkpoints automatisch bis zur Finalisierung
- Monitoring-Stack (Prometheus + Grafana + Loki) ermöglicht Betrieb komplett ohne SSH
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Verteiltes ML-Checkpoint-Speichersystem auf 4× Raspberry Pi 4B
Der Reddit-Nutzer East-Muffin-6472 hat ein vollständig Open-Source-Checkpoint-Speichersystem für kleine ML-Cluster entwickelt und dokumentiert. Das Setup besteht aus einem Mac Mini M4 als Koordinator sowie vier Raspberry Pi 4B-Nodes (je 4 GB RAM) als Worker. Der Koordinator splittet safetensors-Dateien in Shards und verteilt sie auf die Pi-Nodes; bei einem Restore greift das System automatisch auf Replikate zurück. Getestet wurde das System unter anderem mit einem 942-MB-Checkpoint. Im Entwicklungsprozess traten mehrere klassische Distributed-Systems-Probleme auf: nicht-atomare Checkpoint-Schreibvorgänge führten dazu, dass der Filesystem-Watcher teilweise unfertige Dateien detektierte; langsame SD-Karten der Pis erzeugten Backpressure bei der parallelen Shard-Replikation; fehlende Checksums in der Retry-Logik verursachten anfangs stille Korruptionsfehler; und mDNS-Discovery erwies sich als fehleranfällig bei Nodes, die während eines Transfers verschwinden oder neu beitreten. Das Monitoring erfolgt über einen Prometheus/Grafana/Loki-Stack ohne SSH-Zugriff. Der Autor betont, dass das Projekt vor allem ein praktisches Lernwerkzeug für TCP-Flow-Control, Backpressure-Handling und verteilte Fehlertoleranz war.
- 942-MB-Checkpoint als Testgröße für das Gesamtsystem dokumentiert
- Shard-Größe hatte überraschend großen Einfluss auf den Durchsatz – zu kleine Shards erhöhten den Socket-Overhead stark
- mDNS-Discovery ersetzt hardkodierte IPs, zeigte aber Probleme bei Node-Reconnects mid-Transfer
- Filesystem-Watcher-Daemon retried unvollständige Checkpoints automatisch bis zur Finalisierung
- Monitoring-Stack (Prometheus + Grafana + Loki) ermöglicht Betrieb komplett ohne SSH
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.