wird geladen

SIQ-1: Qwen-35B mit PPO für autonome Agenten und Autoresearch · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA2h

SIQ-1: Qwen-35B mit PPO für autonome Agenten und Autoresearch

ToolsGPT Qwen Hugging Face

CompaniesHugging Face

Warum es zählt

SIQ-1 zeigt, dass PPO-Training mit verifizierbarem Reward bei einem 35B-MoE-Modell starke Gains auf Research- und Reasoning-Benchmarks bringen kann – potenziell relevant für lokale Agenten-Setups ohne Zugriff auf sehr große Modelle. Modell und GGUF sind auf HuggingFace verfügbar.

— Lumeric Redaktion

Quelle lesenreddit.com

karpathy/autoresearch (parameter-golf) · Spitzenwert

1%

SIQ-1 (35B)

Agents Rl Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNGarxiv.org3w
Search-E1: Selbstdestillation treibt Evolution suchgestützter Reasoning-Agenten
BENCHMARKreddit.com3w
Qwen3.5 4B als PI-Agent: SOTA auf TerminalBench in der 4B-Klasse
FORSCHUNGarxiv.org3w
KG-R1: RL-basiertes Agentic Framework für effizientes Knowledge-Graph-RAG

BENCHMARK

reddit.com· r/LocalLLaMA2h

SIQ-1: Qwen-35B mit PPO für autonome Agenten und Autoresearch

ToolsGPT Qwen Hugging Face

CompaniesHugging Face

Warum es zählt

SIQ-1 zeigt, dass PPO-Training mit verifizierbarem Reward bei einem 35B-MoE-Modell starke Gains auf Research- und Reasoning-Benchmarks bringen kann – potenziell relevant für lokale Agenten-Setups ohne Zugriff auf sehr große Modelle. Modell und GGUF sind auf HuggingFace verfügbar.

— Lumeric Redaktion

karpathy/autoresearch (parameter-golf) · Spitzenwert

1%

SIQ-1 (35B)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Agents Rl Open Source

Reaktion

Speichern

Verwandte Beiträge

FORSCHUNGarxiv.org3w
Search-E1: Selbstdestillation treibt Evolution suchgestützter Reasoning-Agenten
BENCHMARKreddit.com3w
Qwen3.5 4B als PI-Agent: SOTA auf TerminalBench in der 4B-Klasse
FORSCHUNGarxiv.org3w
KG-R1: RL-basiertes Agentic Framework für effizientes Knowledge-Graph-RAG