Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht

Warum es zählt

Ermöglicht lokales Fine-Tuning von Modellen mit hochwertigen, vielfältigen Trainingsbeispielen ohne proprietäre API-Kosten. Das Dataset deckt Coding, Wissenschaften und Kreatives ab und ist sofort einsatzbereit.

— Lumeric Redaktion

Der Nutzer /u/AldebaranBefore hat auf Hugging Face ein Synthese-Dataset aus Claude Opus 4.6- und 4.7-Chats bereitgestellt. Das Dataset umfasst 8.706 Beispiele mit insgesamt etwa 17 Millionen Tokens und durchschnittlich 1.954 Tokens pro Beispiel. Rund 40% sind Multi-Turn-Dialoge, 60% Single-Turn. Die Daten verteilen sich auf 28 Kategorien: Coding (1.628 Beispiele), Humanwissenschaften (862), Naturwissenschaften (737) sowie spezialisierte Bereiche wie Medizin, Jura, Finanzen und kreatives Schreiben. Das Dataset bietet geteilte Splits für verschiedene Anwendungsfälle — ein vollständiger Trainings-Split, spezialisierte Splits für Instruktion und Rollenspiel sowie einen fokussierten Code+Math-Split. Der Ersteller hat die Daten grundlegend bereinigt und vermerkt, dass Refusals und Sicherheitsmekanismen unterdrückt wurden. Das Projekt entstand aus überschüssiger API-Nutzung vor Planablauf.

Was wir noch wissen

8.706 Beispiele mit ~17 Mio. Tokens, durchschnitt 1.954 Tokens pro Beispiel
Vier vorkuratiertee Splits: Vollständig, Instruktion (7.217), Rollenspiel (1.489), Code (1.840)
53,7% Claude Opus 4.6 (4.675 Bsp.), 46,3% Claude Opus 4.7 (4.031 Bsp.)
Größte Kategorien: Coding (2,5M Tokens), Humanwissenschaften (1,8M), Naturwissenschaften (1,7M)
Refusals und Safety-Mechanismen aktiv reduziert für unleashed Fine-Tuning-Potenzial

Quelle lesenreddit.com

Open Source Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht

ToolsClaude Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

8.706 Beispiele mit ~17 Mio. Tokens, durchschnitt 1.954 Tokens pro Beispiel
Vier vorkuratiertee Splits: Vollständig, Instruktion (7.217), Rollenspiel (1.489), Code (1.840)
53,7% Claude Opus 4.6 (4.675 Bsp.), 46,3% Claude Opus 4.7 (4.031 Bsp.)
Größte Kategorien: Coding (2,5M Tokens), Humanwissenschaften (1,8M), Naturwissenschaften (1,7M)
Refusals und Safety-Mechanismen aktiv reduziert für unleashed Fine-Tuning-Potenzial

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge

Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge