103-Milliarden-Token-Usenet-Korpus (1980–2013) als Trainingsdaten veröffentlicht

Warum es zählt

Der Korpus bietet domänenspezifische Hierarchien (z. B. 10,3 Mrd. comp.*-Tokens) für Fine-Tuning ohne RLHF-Artefakte oder GPT-Manierismen – Samples sind ohne Genehmigung frei herunterladbar, der Vollkorpus lizenzierbar.

— Lumeric Redaktion

Der Reddit-Nutzer /u/OwnerByDane hat über mehrere Jahre einen vollständigen Usenet-Korpus aus dem Zeitraum 1980 bis 2013 aufgebaut und aufbereitet. Das Ergebnis umfasst 103,1 Milliarden Token (tokenisiert mit cl100k_base), verteilt auf 408 Millionen Posts aus 18.347 Newsgroups – zu 96,6 % auf Englisch. Der Datensatz wurde dedupliziert, alt.binaries.*-Gruppen ausgeschlossen, Binärdaten entfernt und E-Mail-Adressen redigiert; das Format ist MBOX → gzip JSONL. Besonders hervorgehoben wird die vollständige Abwesenheit von KI-Kontamination, da sämtliche Posts Jahrzehnte vor dem LLM-Zeitalter entstanden sind und damit weder GPT-Manierismen noch RLHF-Muster enthalten. Die Daten gliedern sich in thematische Hierarchien: comp.* (10,3 Mrd. Token), rec.* (16,5 Mrd.), sci.* (3,3 Mrd.) und humanities.*. Als Proof of Concept hat ein Community-Mitglied bereits Gemma 4 auf dem Sampledatensatz per LoRA fine-getuned (wyan/usenet-gemma-4-E2B-lora auf Hugging Face). Samples mit je 5.000 Posts pro Hierarchie sind kostenlos und ohne Genehmigung verfügbar; der Vollkorpus wird zur Lizenzierung angeboten. Der Beitrag erzielte auf r/MachineLearning rund 30.000 Aufrufe und über 100 Upvotes.

Quelle lesenreddit.com

103,1B Token

Gesamtumfang des Usenet-Korpus (cl100k_base)

Foundation Modelle Open Source Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

103-Milliarden-Token-Usenet-Korpus (1980–2013) als Trainingsdaten veröffentlicht

ToolsGPT Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

103,1B Token

Gesamtumfang des Usenet-Korpus (cl100k_base)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

103-Milliarden-Token-Usenet-Korpus (1980–2013) als Trainingsdaten veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge

103-Milliarden-Token-Usenet-Korpus (1980–2013) als Trainingsdaten veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge