Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht
Der Nutzer /u/AldebaranBefore hat auf Hugging Face ein Synthese-Dataset aus Claude Opus 4.6- und 4.7-Chats bereitgestellt. Das Dataset umfasst 8.706 Beispiele mit insgesamt etwa 17 Millionen Tokens und durchschnittlich 1.954 Tokens pro Beispiel. Rund 40% sind Multi-Turn-Dialoge, 60% Single-Turn. Die Daten verteilen sich auf 28 Kategorien: Coding (1.628 Beispiele), Humanwissenschaften (862), Naturwissenschaften (737) sowie spezialisierte Bereiche wie Medizin, Jura, Finanzen und kreatives Schreiben. Das Dataset bietet geteilte Splits für verschiedene Anwendungsfälle — ein vollständiger Trainings-Split, spezialisierte Splits für Instruktion und Rollenspiel sowie einen fokussierten Code+Math-Split. Der Ersteller hat die Daten grundlegend bereinigt und vermerkt, dass Refusals und Sicherheitsmekanismen unterdrückt wurden. Das Projekt entstand aus überschüssiger API-Nutzung vor Planablauf.
- 8.706 Beispiele mit ~17 Mio. Tokens, durchschnitt 1.954 Tokens pro Beispiel
- Vier vorkuratiertee Splits: Vollständig, Instruktion (7.217), Rollenspiel (1.489), Code (1.840)
- 53,7% Claude Opus 4.6 (4.675 Bsp.), 46,3% Claude Opus 4.7 (4.031 Bsp.)
- Größte Kategorien: Coding (2,5M Tokens), Humanwissenschaften (1,8M), Naturwissenschaften (1,7M)
- Refusals und Safety-Mechanismen aktiv reduziert für unleashed Fine-Tuning-Potenzial
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Datenschwierigkeit und der Generalisierungs-Extrapolations-Tradeoff beim LLM Fine-Tuning
- MEINUNGreddit.com2w
Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache
- MEINUNGreddit.com6d
Community-Projekt: C++-fokussierter Finetuning-Datensatz für lokale Modelle
- FORSCHUNGarxiv.org0mo
Neues Dataset zur automatischen Klassifikation von Gesangs-Vokalmodi veröffentlicht
Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht
Der Nutzer /u/AldebaranBefore hat auf Hugging Face ein Synthese-Dataset aus Claude Opus 4.6- und 4.7-Chats bereitgestellt. Das Dataset umfasst 8.706 Beispiele mit insgesamt etwa 17 Millionen Tokens und durchschnittlich 1.954 Tokens pro Beispiel. Rund 40% sind Multi-Turn-Dialoge, 60% Single-Turn. Die Daten verteilen sich auf 28 Kategorien: Coding (1.628 Beispiele), Humanwissenschaften (862), Naturwissenschaften (737) sowie spezialisierte Bereiche wie Medizin, Jura, Finanzen und kreatives Schreiben. Das Dataset bietet geteilte Splits für verschiedene Anwendungsfälle — ein vollständiger Trainings-Split, spezialisierte Splits für Instruktion und Rollenspiel sowie einen fokussierten Code+Math-Split. Der Ersteller hat die Daten grundlegend bereinigt und vermerkt, dass Refusals und Sicherheitsmekanismen unterdrückt wurden. Das Projekt entstand aus überschüssiger API-Nutzung vor Planablauf.
- 8.706 Beispiele mit ~17 Mio. Tokens, durchschnitt 1.954 Tokens pro Beispiel
- Vier vorkuratiertee Splits: Vollständig, Instruktion (7.217), Rollenspiel (1.489), Code (1.840)
- 53,7% Claude Opus 4.6 (4.675 Bsp.), 46,3% Claude Opus 4.7 (4.031 Bsp.)
- Größte Kategorien: Coding (2,5M Tokens), Humanwissenschaften (1,8M), Naturwissenschaften (1,7M)
- Refusals und Safety-Mechanismen aktiv reduziert für unleashed Fine-Tuning-Potenzial
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Datenschwierigkeit und der Generalisierungs-Extrapolations-Tradeoff beim LLM Fine-Tuning
- MEINUNGreddit.com2w
Suche nach kleinem TTS-Modell unter 600M Params für Low-Resource-Sprache
- MEINUNGreddit.com6d
Community-Projekt: C++-fokussierter Finetuning-Datensatz für lokale Modelle
- FORSCHUNGarxiv.org0mo
Neues Dataset zur automatischen Klassifikation von Gesangs-Vokalmodi veröffentlicht