AgentTrove: 1,7 Mio. agentische Traces als Open-Source-SFT-Datensatz

Warum es zählt

Wer Agenten-Modelle per Supervised Fine-Tuning trainieren will, bekommt mit AgentTrove einen direkt nutzbaren, großskaligen Ausgangsdatensatz – inklusive Workflow zum Filtern erfolgreicher Traces und Exportieren sauberer SFT-Splits.

— Lumeric Redaktion

AgentTrove positioniert sich als bislang umfangreichste Open-Source-Kollektion agentischer Interaktions-Traces. Die 1,7 Millionen Einträge liegen im ShareGPT-Layout vor – einem Format, das auch für gängige SFT-Pipelines wie Axolotl oder LLaMA-Factory direkt kompatibel ist. Der begleitende Python-Leitfaden auf MarkTechPost demonstriert praxisnah, wie sich der Datensatz ohne vollständigen Download per Streaming verarbeiten lässt, um Speicher- und Bandbreitenaufwand zu minimieren. Weitere Schritte umfassen die Normalisierung von Agenten-Turns, das Extrahieren von Tool-Calls und Shell-Kommandos sowie die Analyse von Trajektorien auf Erfolg oder Misserfolg. Abschließend zeigt das Tutorial, wie gefilterte, erfolgreiche Traces in einen bereinigten SFT-Datensatz exportiert werden können. AgentTrove richtet sich damit sowohl an Forscher, die agentisches Verhalten untersuchen, als auch an Praktiker, die eigene Agenten-Modelle auf realen Interaktionsdaten trainieren möchten.

Was wir noch wissen

1,7 Mio. Zeilen im ShareGPT-Format – bisher größte Open-Source-Agenten-Trace-Sammlung
Streaming-Zugriff möglich: kein vollständiger Download nötig, spart Speicher und Bandbreite
Tutorial deckt Normalisierung, Command-Extraktion und Trajektorien-Analyse ab
Erfolgreiche Traces werden gefiltert und als sauberes SFT-Finetuning-Dataset exportiert
Python-basierter Workflow, kompatibel mit gängigen SFT-Frameworks wie Axolotl oder LLaMA-Factory

Quelle lesenmarktechpost.com

Agents Open Source Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

AgentTrove: 1,7 Mio. agentische Traces als Open-Source-SFT-Datensatz

ToolsLlama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

1,7 Mio. Zeilen im ShareGPT-Format – bisher größte Open-Source-Agenten-Trace-Sammlung
Streaming-Zugriff möglich: kein vollständiger Download nötig, spart Speicher und Bandbreite
Tutorial deckt Normalisierung, Command-Extraktion und Trajektorien-Analyse ab
Erfolgreiche Traces werden gefiltert und als sauberes SFT-Finetuning-Dataset exportiert
Python-basierter Workflow, kompatibel mit gängigen SFT-Frameworks wie Axolotl oder LLaMA-Factory

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

AgentTrove: 1,7 Mio. agentische Traces als Open-Source-SFT-Datensatz

Frag die KI zum Artikel

Verwandte Beiträge

AgentTrove: 1,7 Mio. agentische Traces als Open-Source-SFT-Datensatz

Frag die KI zum Artikel

Verwandte Beiträge