Intern-S2-Preview: 35B wissenschaftliches Multimodal-Modell mit Task Scaling
Intern-S2-Preview ist ein wissenschaftliches Multimodal-Modell mit 35 Milliarden Parametern, das vom InternLM-Team auf Basis von Qwen3.5 weiterentwickelt wurde. Kernidee ist das sogenannte „Task Scaling": Statt primär Parameter oder Datenmenge zu erhöhen, wird die Schwierigkeit, Diversität und Abdeckung wissenschaftlicher Aufgaben systematisch gesteigert – und zwar über die gesamte Trainings-Pipeline von Pre-Training bis Reinforcement Learning. Damit erreicht das Modell laut den Entwicklern auf mehreren wissenschaftlichen Kernbenchmarks eine vergleichbare Leistung wie Intern-S1-Pro, das im Trillion-Parameter-Bereich angesiedelt ist. Besonders hervorgehoben wird die Fähigkeit zur Kristallstruktur-Generierung für Materialien, was Intern-S2-Preview als erstes Open-Source-Modell dieser Klasse ausweist. Hinzu kommen verbesserte Agenten-Fähigkeiten für wissenschaftliche Workflows. Im RL-Training kommen zwei Effizienz-Techniken zum Einsatz: Shared-Weight Multi-Token Prediction (MTP) mit KL-Loss zur Reduzierung des Mismatches zwischen Training und Inferenz sowie CoT-Kompression, die kürzere Antworten bei gleichbleibender Reasoning-Qualität ermöglicht und die Token-Generierungsgeschwindigkeit erhöht.
- Modell basiert auf continued pretraining von Qwen3.5, 35B Parameter
- Erstmals Open-Source-Modell mit Kristallstruktur-Generierung (Material Science) kombiniert mit starken Allgemein-Fähigkeiten
- MTP mit KL-Loss verbessert Accept Rate und Token-Geschwindigkeit bei RL-Inferenz
- CoT-Kompression verkürzt Antworten ohne Leistungseinbußen beim Reasoning
- Stärkt Scientific-Agent-Fähigkeiten gegenüber der Vorgängergeneration auf mehreren Benchmarks
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com6d
SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks
- LAUNCHreddit.com1w
Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit
- LAUNCHreddit.com3w
Llama.cpp integriert MTP-Unterstützung in Beta
Intern-S2-Preview: 35B wissenschaftliches Multimodal-Modell mit Task Scaling
Intern-S2-Preview ist ein wissenschaftliches Multimodal-Modell mit 35 Milliarden Parametern, das vom InternLM-Team auf Basis von Qwen3.5 weiterentwickelt wurde. Kernidee ist das sogenannte „Task Scaling": Statt primär Parameter oder Datenmenge zu erhöhen, wird die Schwierigkeit, Diversität und Abdeckung wissenschaftlicher Aufgaben systematisch gesteigert – und zwar über die gesamte Trainings-Pipeline von Pre-Training bis Reinforcement Learning. Damit erreicht das Modell laut den Entwicklern auf mehreren wissenschaftlichen Kernbenchmarks eine vergleichbare Leistung wie Intern-S1-Pro, das im Trillion-Parameter-Bereich angesiedelt ist. Besonders hervorgehoben wird die Fähigkeit zur Kristallstruktur-Generierung für Materialien, was Intern-S2-Preview als erstes Open-Source-Modell dieser Klasse ausweist. Hinzu kommen verbesserte Agenten-Fähigkeiten für wissenschaftliche Workflows. Im RL-Training kommen zwei Effizienz-Techniken zum Einsatz: Shared-Weight Multi-Token Prediction (MTP) mit KL-Loss zur Reduzierung des Mismatches zwischen Training und Inferenz sowie CoT-Kompression, die kürzere Antworten bei gleichbleibender Reasoning-Qualität ermöglicht und die Token-Generierungsgeschwindigkeit erhöht.
- Modell basiert auf continued pretraining von Qwen3.5, 35B Parameter
- Erstmals Open-Source-Modell mit Kristallstruktur-Generierung (Material Science) kombiniert mit starken Allgemein-Fähigkeiten
- MTP mit KL-Loss verbessert Accept Rate und Token-Geschwindigkeit bei RL-Inferenz
- CoT-Kompression verkürzt Antworten ohne Leistungseinbußen beim Reasoning
- Stärkt Scientific-Agent-Fähigkeiten gegenüber der Vorgängergeneration auf mehreren Benchmarks
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com6d
SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks
- LAUNCHreddit.com1w
Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit
- LAUNCHreddit.com3w
Llama.cpp integriert MTP-Unterstützung in Beta