Cull: Open-Source-Tool für automatisiertes Image-Dataset-Scraping und -Klassifikation

ToolsGroq LM Studio Claude Claude Code GPT Aider Cursor

Warum es zählt

Wer regelmäßig LoRA- oder Finetune-Datensätze aufbaut, spart mit Cull manuelle Sortier- und Captioning-Arbeit: Das Tool übernimmt Scraping, Klassifikation per Vision-LLM und Prompt-Generierung in einem durchgängigen, lokal lauffähigen Pipeline-System ohne Datenbank oder Docker.

— Lumeric Redaktion

Cull, entwickelt von Reddit-Nutzer /u/Compunerd3, automatisiert den gesamten Workflow der Bilddatensatz-Erstellung für KI-Trainings. Das Tool scrapt Bilder von Plattformen wie Civitai, X/Twitter, Reddit, Discord, Pixiv, DeviantArt, ArtStation und rund 340 weiteren über gallery-dl unterstützten Quellen. Jedes Bild durchläuft eine Klassifikation via Vision-Language-Model – lokal über LM Studio oder in der Cloud über Groq und OpenAI-kompatible APIs – anhand eines strikten 17-Felder-JSON-Schemas. Zwei Score-Gates (Gesamtqualität und Themenrelevanz) steuern, welche Bilder behalten werden. Gehütete Bilder landen in Kategorieordnern neben einer `.txt`-Prompt-Datei und einem `.vision.json`-Audit-Eintrag. Ein Flask- und Alpine.js-Dashboard ermöglicht Start/Stop, Galerie-Ansicht, Prompt-Bearbeitung und ZIP-Export direkt in den Trainer. Praktische Einsatzszenarien sind LoRA-Datensätze (~300 Bilder) und große Finetune-Korpora (~100.000 Bilder), aber auch die nachträgliche Beschriftung promptloser Archivbilder. Der Stack läuft auf Python 3.10+ ohne Redis, Datenbank oder Docker – MIT-lizenziert. Für Claude Code, Cursor und ähnliche AI-Coding-Tools werden mitgelieferte Skill-Bundles und Sub-Agents bereitgestellt.

Quelle lesenreddit.com

Open Source Developer Tooling Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cull: Open-Source-Tool für automatisiertes Image-Dataset-Scraping und -Klassifikation

ToolsGroq LM Studio Claude Claude Code GPT Aider Cursor

CompaniesOpenAI Groq

Warum es zählt

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cull: Open-Source-Tool für automatisiertes Image-Dataset-Scraping und -Klassifikation

Frag die KI zum Artikel

Verwandte Beiträge

Cull: Open-Source-Tool für automatisiertes Image-Dataset-Scraping und -Klassifikation

Frag die KI zum Artikel

Verwandte Beiträge