
AgentTrove: 1,7 Mio. agentische Traces als Open-Source-SFT-Datensatz
AgentTrove positioniert sich als bislang umfangreichste Open-Source-Kollektion agentischer Interaktions-Traces. Die 1,7 Millionen Einträge liegen im ShareGPT-Layout vor – einem Format, das auch für gängige SFT-Pipelines wie Axolotl oder LLaMA-Factory direkt kompatibel ist. Der begleitende Python-Leitfaden auf MarkTechPost demonstriert praxisnah, wie sich der Datensatz ohne vollständigen Download per Streaming verarbeiten lässt, um Speicher- und Bandbreitenaufwand zu minimieren. Weitere Schritte umfassen die Normalisierung von Agenten-Turns, das Extrahieren von Tool-Calls und Shell-Kommandos sowie die Analyse von Trajektorien auf Erfolg oder Misserfolg. Abschließend zeigt das Tutorial, wie gefilterte, erfolgreiche Traces in einen bereinigten SFT-Datensatz exportiert werden können. AgentTrove richtet sich damit sowohl an Forscher, die agentisches Verhalten untersuchen, als auch an Praktiker, die eigene Agenten-Modelle auf realen Interaktionsdaten trainieren möchten.
- 1,7 Mio. Zeilen im ShareGPT-Format – bisher größte Open-Source-Agenten-Trace-Sammlung
- Streaming-Zugriff möglich: kein vollständiger Download nötig, spart Speicher und Bandbreite
- Tutorial deckt Normalisierung, Command-Extraktion und Trajektorien-Analyse ab
- Erfolgreiche Traces werden gefiltert und als sauberes SFT-Finetuning-Dataset exportiert
- Python-basierter Workflow, kompatibel mit gängigen SFT-Frameworks wie Axolotl oder LLaMA-Factory
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
SynthTools: LLM-basiertes Framework für synthetische Tool-Use-Umgebungen
- FORSCHUNGarxiv.org2d
ISE-Framework synthetisiert 43.956 OS-Agent-Trajektorien für Multi-Turn-Training
- FORSCHUNGarxiv.org3w
FT-Dojo: Benchmark-Umgebung für autonomes LLM Fine-Tuning mit Sprach-Agenten
- FORSCHUNGarxiv.org1w
ANDES: Framework für autonome Datensynthese im LLM-Post-Training

AgentTrove: 1,7 Mio. agentische Traces als Open-Source-SFT-Datensatz
AgentTrove positioniert sich als bislang umfangreichste Open-Source-Kollektion agentischer Interaktions-Traces. Die 1,7 Millionen Einträge liegen im ShareGPT-Layout vor – einem Format, das auch für gängige SFT-Pipelines wie Axolotl oder LLaMA-Factory direkt kompatibel ist. Der begleitende Python-Leitfaden auf MarkTechPost demonstriert praxisnah, wie sich der Datensatz ohne vollständigen Download per Streaming verarbeiten lässt, um Speicher- und Bandbreitenaufwand zu minimieren. Weitere Schritte umfassen die Normalisierung von Agenten-Turns, das Extrahieren von Tool-Calls und Shell-Kommandos sowie die Analyse von Trajektorien auf Erfolg oder Misserfolg. Abschließend zeigt das Tutorial, wie gefilterte, erfolgreiche Traces in einen bereinigten SFT-Datensatz exportiert werden können. AgentTrove richtet sich damit sowohl an Forscher, die agentisches Verhalten untersuchen, als auch an Praktiker, die eigene Agenten-Modelle auf realen Interaktionsdaten trainieren möchten.
- 1,7 Mio. Zeilen im ShareGPT-Format – bisher größte Open-Source-Agenten-Trace-Sammlung
- Streaming-Zugriff möglich: kein vollständiger Download nötig, spart Speicher und Bandbreite
- Tutorial deckt Normalisierung, Command-Extraktion und Trajektorien-Analyse ab
- Erfolgreiche Traces werden gefiltert und als sauberes SFT-Finetuning-Dataset exportiert
- Python-basierter Workflow, kompatibel mit gängigen SFT-Frameworks wie Axolotl oder LLaMA-Factory
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
SynthTools: LLM-basiertes Framework für synthetische Tool-Use-Umgebungen
- FORSCHUNGarxiv.org2d
ISE-Framework synthetisiert 43.956 OS-Agent-Trajektorien für Multi-Turn-Training
- FORSCHUNGarxiv.org3w
FT-Dojo: Benchmark-Umgebung für autonomes LLM Fine-Tuning mit Sprach-Agenten
- FORSCHUNGarxiv.org1w
ANDES: Framework für autonome Datensynthese im LLM-Post-Training