103-Milliarden-Token-Usenet-Korpus (1980–2013) als Trainingsdaten veröffentlicht
Der Reddit-Nutzer /u/OwnerByDane hat über mehrere Jahre einen vollständigen Usenet-Korpus aus dem Zeitraum 1980 bis 2013 aufgebaut und aufbereitet. Das Ergebnis umfasst 103,1 Milliarden Token (tokenisiert mit cl100k_base), verteilt auf 408 Millionen Posts aus 18.347 Newsgroups – zu 96,6 % auf Englisch. Der Datensatz wurde dedupliziert, alt.binaries.*-Gruppen ausgeschlossen, Binärdaten entfernt und E-Mail-Adressen redigiert; das Format ist MBOX → gzip JSONL. Besonders hervorgehoben wird die vollständige Abwesenheit von KI-Kontamination, da sämtliche Posts Jahrzehnte vor dem LLM-Zeitalter entstanden sind und damit weder GPT-Manierismen noch RLHF-Muster enthalten. Die Daten gliedern sich in thematische Hierarchien: comp.* (10,3 Mrd. Token), rec.* (16,5 Mrd.), sci.* (3,3 Mrd.) und humanities.*. Als Proof of Concept hat ein Community-Mitglied bereits Gemma 4 auf dem Sampledatensatz per LoRA fine-getuned (wyan/usenet-gemma-4-E2B-lora auf Hugging Face). Samples mit je 5.000 Posts pro Hierarchie sind kostenlos und ohne Genehmigung verfügbar; der Vollkorpus wird zur Lizenzierung angeboten. Der Beitrag erzielte auf r/MachineLearning rund 30.000 Aufrufe und über 100 Upvotes.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
ShareChat: 142.808 Echtgespräche aus ChatGPT, Gemini, Claude & Co. als Forschungsdatensatz
- FORSCHUNGarxiv.org2w
ScrapeGraphAI-100k: 93.695 reale Schema-Extraktionsdaten für LLM-Training
- LAUNCHreddit.com3w
Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht
- FORSCHUNGarxiv.org1w
EmbGen: Synthetische Trainingsdaten durch semantische Korpus-Reassemblierung
103-Milliarden-Token-Usenet-Korpus (1980–2013) als Trainingsdaten veröffentlicht
Der Reddit-Nutzer /u/OwnerByDane hat über mehrere Jahre einen vollständigen Usenet-Korpus aus dem Zeitraum 1980 bis 2013 aufgebaut und aufbereitet. Das Ergebnis umfasst 103,1 Milliarden Token (tokenisiert mit cl100k_base), verteilt auf 408 Millionen Posts aus 18.347 Newsgroups – zu 96,6 % auf Englisch. Der Datensatz wurde dedupliziert, alt.binaries.*-Gruppen ausgeschlossen, Binärdaten entfernt und E-Mail-Adressen redigiert; das Format ist MBOX → gzip JSONL. Besonders hervorgehoben wird die vollständige Abwesenheit von KI-Kontamination, da sämtliche Posts Jahrzehnte vor dem LLM-Zeitalter entstanden sind und damit weder GPT-Manierismen noch RLHF-Muster enthalten. Die Daten gliedern sich in thematische Hierarchien: comp.* (10,3 Mrd. Token), rec.* (16,5 Mrd.), sci.* (3,3 Mrd.) und humanities.*. Als Proof of Concept hat ein Community-Mitglied bereits Gemma 4 auf dem Sampledatensatz per LoRA fine-getuned (wyan/usenet-gemma-4-E2B-lora auf Hugging Face). Samples mit je 5.000 Posts pro Hierarchie sind kostenlos und ohne Genehmigung verfügbar; der Vollkorpus wird zur Lizenzierung angeboten. Der Beitrag erzielte auf r/MachineLearning rund 30.000 Aufrufe und über 100 Upvotes.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
ShareChat: 142.808 Echtgespräche aus ChatGPT, Gemini, Claude & Co. als Forschungsdatensatz
- FORSCHUNGarxiv.org2w
ScrapeGraphAI-100k: 93.695 reale Schema-Extraktionsdaten für LLM-Training
- LAUNCHreddit.com3w
Claude-Opus-Dataset mit 8.700 Chats für Fine-Tuning veröffentlicht
- FORSCHUNGarxiv.org1w
EmbGen: Synthetische Trainingsdaten durch semantische Korpus-Reassemblierung