Cull: Open-Source-Tool für automatisiertes Image-Dataset-Scraping und -Klassifikation
Cull, entwickelt von Reddit-Nutzer /u/Compunerd3, automatisiert den gesamten Workflow der Bilddatensatz-Erstellung für KI-Trainings. Das Tool scrapt Bilder von Plattformen wie Civitai, X/Twitter, Reddit, Discord, Pixiv, DeviantArt, ArtStation und rund 340 weiteren über gallery-dl unterstützten Quellen. Jedes Bild durchläuft eine Klassifikation via Vision-Language-Model – lokal über LM Studio oder in der Cloud über Groq und OpenAI-kompatible APIs – anhand eines strikten 17-Felder-JSON-Schemas. Zwei Score-Gates (Gesamtqualität und Themenrelevanz) steuern, welche Bilder behalten werden. Gehütete Bilder landen in Kategorieordnern neben einer `.txt`-Prompt-Datei und einem `.vision.json`-Audit-Eintrag. Ein Flask- und Alpine.js-Dashboard ermöglicht Start/Stop, Galerie-Ansicht, Prompt-Bearbeitung und ZIP-Export direkt in den Trainer. Praktische Einsatzszenarien sind LoRA-Datensätze (~300 Bilder) und große Finetune-Korpora (~100.000 Bilder), aber auch die nachträgliche Beschriftung promptloser Archivbilder. Der Stack läuft auf Python 3.10+ ohne Redis, Datenbank oder Docker – MIT-lizenziert. Für Claude Code, Cursor und ähnliche AI-Coding-Tools werden mitgelieferte Skill-Bundles und Sub-Agents bereitgestellt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
AutoVDC: VLM-Framework erkennt fehlerhafte Annotationen in autonomen Fahrdatensätzen
- FORSCHUNGarxiv.org6d
MONET: Offener Datensatz mit 104,9 Mio. Bild-Text-Paaren für Text-to-Image-Training
- FORSCHUNGarxiv.org6d
FineVision: 24-Millionen-Sample-Korpus für Vision-Language-Modelle open-source
- FORSCHUNGarxiv.org3d
CVSearch: Adaptives Framework für hochauflösende Bildwahrnehmung in MLLMs
Cull: Open-Source-Tool für automatisiertes Image-Dataset-Scraping und -Klassifikation
Cull, entwickelt von Reddit-Nutzer /u/Compunerd3, automatisiert den gesamten Workflow der Bilddatensatz-Erstellung für KI-Trainings. Das Tool scrapt Bilder von Plattformen wie Civitai, X/Twitter, Reddit, Discord, Pixiv, DeviantArt, ArtStation und rund 340 weiteren über gallery-dl unterstützten Quellen. Jedes Bild durchläuft eine Klassifikation via Vision-Language-Model – lokal über LM Studio oder in der Cloud über Groq und OpenAI-kompatible APIs – anhand eines strikten 17-Felder-JSON-Schemas. Zwei Score-Gates (Gesamtqualität und Themenrelevanz) steuern, welche Bilder behalten werden. Gehütete Bilder landen in Kategorieordnern neben einer `.txt`-Prompt-Datei und einem `.vision.json`-Audit-Eintrag. Ein Flask- und Alpine.js-Dashboard ermöglicht Start/Stop, Galerie-Ansicht, Prompt-Bearbeitung und ZIP-Export direkt in den Trainer. Praktische Einsatzszenarien sind LoRA-Datensätze (~300 Bilder) und große Finetune-Korpora (~100.000 Bilder), aber auch die nachträgliche Beschriftung promptloser Archivbilder. Der Stack läuft auf Python 3.10+ ohne Redis, Datenbank oder Docker – MIT-lizenziert. Für Claude Code, Cursor und ähnliche AI-Coding-Tools werden mitgelieferte Skill-Bundles und Sub-Agents bereitgestellt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
AutoVDC: VLM-Framework erkennt fehlerhafte Annotationen in autonomen Fahrdatensätzen
- FORSCHUNGarxiv.org6d
MONET: Offener Datensatz mit 104,9 Mio. Bild-Text-Paaren für Text-to-Image-Training
- FORSCHUNGarxiv.org6d
FineVision: 24-Millionen-Sample-Korpus für Vision-Language-Modelle open-source
- FORSCHUNGarxiv.org3d
CVSearch: Adaptives Framework für hochauflösende Bildwahrnehmung in MLLMs