talkie-1930-13B: Vintage-LLM auf 260B historischen Tokens trainiert
talkie-1930-13b-it ist ein sogenanntes „Vintage Language Model" – ein Konzept, das auf Owain Evans zurückgeht. Das Basismodell talkie-1930-13b-base wurde auf 260 Milliarden Tokens englischsprachiger Texte trainiert, die ausschließlich vor 1931 verfasst wurden. Die Instruction-tuned Variante wurde anschließend auf einem eigens erstellten Datensatz aus vormodernen Referenzwerken feinabgestimmt, darunter Etikette-Handbücher, Enzyklopädien und Briefratgeber. Um die Instruktionsfolge-Fähigkeit zu verbessern, wurde das Modell mit Online-DPO (LLM-as-a-Judge) per Reinforcement Learning weiter optimiert. Ein Pull Request (#22596) im ggml-org/llama.cpp-Repository ergänzt nun die nötige Unterstützung, um das Modell lokal über llama.cpp auszuführen. Das Modell ist auf HuggingFace unter talkie-lm/talkie-1930-13b-it verfügbar; ein technischer Bericht sowie Referenzcode auf GitHub begleiten die Veröffentlichung.
- 13B-Parameter-Modell, Basistraining auf ausschließlich vor-1931-englischem Text
- Instruction-Tuning auf Datensatz aus Etikette-Büchern, Enzyklopädien und Briefschreib-Manualen
- Reinforcement Learning via Online-DPO mit LLM-as-a-Judge zur Verbesserung des Instruction-Followings
- llama.cpp-Support via Pull Request #22596 von Nutzer niklassheth
- Modell auf HuggingFace unter talkie-lm/talkie-1930-13b-it verfügbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
talkie-1930-13B: Vintage-LLM auf 260B historischen Tokens trainiert
talkie-1930-13b-it ist ein sogenanntes „Vintage Language Model" – ein Konzept, das auf Owain Evans zurückgeht. Das Basismodell talkie-1930-13b-base wurde auf 260 Milliarden Tokens englischsprachiger Texte trainiert, die ausschließlich vor 1931 verfasst wurden. Die Instruction-tuned Variante wurde anschließend auf einem eigens erstellten Datensatz aus vormodernen Referenzwerken feinabgestimmt, darunter Etikette-Handbücher, Enzyklopädien und Briefratgeber. Um die Instruktionsfolge-Fähigkeit zu verbessern, wurde das Modell mit Online-DPO (LLM-as-a-Judge) per Reinforcement Learning weiter optimiert. Ein Pull Request (#22596) im ggml-org/llama.cpp-Repository ergänzt nun die nötige Unterstützung, um das Modell lokal über llama.cpp auszuführen. Das Modell ist auf HuggingFace unter talkie-lm/talkie-1930-13b-it verfügbar; ein technischer Bericht sowie Referenzcode auf GitHub begleiten die Veröffentlichung.
- 13B-Parameter-Modell, Basistraining auf ausschließlich vor-1931-englischem Text
- Instruction-Tuning auf Datensatz aus Etikette-Büchern, Enzyklopädien und Briefschreib-Manualen
- Reinforcement Learning via Online-DPO mit LLM-as-a-Judge zur Verbesserung des Instruction-Followings
- llama.cpp-Support via Pull Request #22596 von Nutzer niklassheth
- Modell auf HuggingFace unter talkie-lm/talkie-1930-13b-it verfügbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.