SIQ-1: Qwen-35B mit PPO für autonome Agenten und Autoresearch
CompaniesHugging Face
Warum es zählt
SIQ-1 zeigt, dass PPO-Training mit verifizierbarem Reward bei einem 35B-MoE-Modell starke Gains auf Research- und Reasoning-Benchmarks bringen kann – potenziell relevant für lokale Agenten-Setups ohne Zugriff auf sehr große Modelle. Modell und GGUF sind auf HuggingFace verfügbar.
— Lumeric Redaktion
karpathy/autoresearch (parameter-golf) · Spitzenwert
1%
SIQ-1 (35B)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
SIQ-1: Qwen-35B mit PPO für autonome Agenten und Autoresearch
CompaniesHugging Face
Warum es zählt
SIQ-1 zeigt, dass PPO-Training mit verifizierbarem Reward bei einem 35B-MoE-Modell starke Gains auf Research- und Reasoning-Benchmarks bringen kann – potenziell relevant für lokale Agenten-Setups ohne Zugriff auf sehr große Modelle. Modell und GGUF sind auf HuggingFace verfügbar.
— Lumeric Redaktion
karpathy/autoresearch (parameter-golf) · Spitzenwert
1%
SIQ-1 (35B)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.