25+ Open-Weight-Modelle in einer Woche: LLMs, Bild, Audio und Video
Die Woche vom frühen Juni 2026 markiert einen bemerkenswerten Verdichtungspunkt in der Open-Weight-Landschaft: Innerhalb weniger Tage veröffentlichten Schwergewichte wie NVIDIA, Google, ByteDance, JetBrains und mehrere Startups über 25 Modelle quer durch alle Modalitäten. Besonders auffällig ist die Architekturvielfalt: Während NVIDIAs Nemotron 3 Ultra mit 550B Parametern das bislang größte offen gewichtete Hybrid-Mamba-Transformer-Modell darstellt und auf Blackwells NVFP4-Quantisierung gesetzt wird, zielt Liquid AIs LFM2.5-8B-A1B mit nur 1,5B aktiven Parametern auf Edge-Deployment. Google Gemma 4 12B hebt sich durch seinen encoder-freien, any-to-any-Ansatz über Text, Bild, Audio und Video hinweg ab und liefert gleichzeitig eine 23-Checkpoint-QAT-Welle für Mobile- und MLX-Deployments. Im Bereich Bildgenerierung überraschte Ideogram mit der Veröffentlichung ihrer allerersten offenen Gewichte: Das 9,3B-Parameter-Flow-Matching-DiT-Modell Ideogram 4 belegt auf Design Arena und LMArena den zweiten Platz hinter GPT Image 2 und gilt als stärkstes offenes Modell für textreiche Bildgenerierung. Im Audio-Bereich lieferten gleich vier Labore in derselben Woche TTS-Systeme aus; darunter sticht RedNotes dots.tts als einzige vollständig kontinuierliche TTS-Pipeline ohne Codec-Stufe hervor. Ergänzt wird das Bild durch Modelle für Video, 3D-Rekonstruktion und physische KI, etwa NVIDIAs Cosmos3-Super als 64B-Weltmodell für Action-Trajektorien.
- NVIDIA Nemotron 3 Ultra: 550B Parameter, nur 55B aktiv, 1M-Token-Kontext, MMLU 89,1 – beansprucht ~5× Durchsatz gegenüber Dichte-Modellen auf Blackwell-GPUs via NVFP4.
- StepFun Step-3.7-Flash: 198B sparse MoE VLM mit ~11B aktiven Parametern, erreicht SWE-Bench PRO 56,3 – Apache 2.0 lizenziert.
- JetBrains Mellum2-12B-A2.5B-Thinking: erstes offenes MoE von JetBrains, erzielt Coding-Leistung nahe Qwen3-14B bei nur 2,5B aktiven Parametern.
- NVIDIA Nemotron-3.5 ASR (600M, Streaming): unterstützt laut Hersteller 17× mehr gleichzeitige Streams als das bisherige Parakeet RNNT 1.1B.
- Baidu NAVA (6,3B): gemeinsames Audio-Video-Generierungsmodell mit Best-in-Class-A/V-Sync, Apache 2.0; ByteDance Bernini-R und VAST TripoSplat bieten Single-Image-to-3D-Gaussian-Splats unter MIT-Lizenz.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
25+ Open-Weight-Modelle in einer Woche: LLMs, Bild, Audio und Video
Die Woche vom frühen Juni 2026 markiert einen bemerkenswerten Verdichtungspunkt in der Open-Weight-Landschaft: Innerhalb weniger Tage veröffentlichten Schwergewichte wie NVIDIA, Google, ByteDance, JetBrains und mehrere Startups über 25 Modelle quer durch alle Modalitäten. Besonders auffällig ist die Architekturvielfalt: Während NVIDIAs Nemotron 3 Ultra mit 550B Parametern das bislang größte offen gewichtete Hybrid-Mamba-Transformer-Modell darstellt und auf Blackwells NVFP4-Quantisierung gesetzt wird, zielt Liquid AIs LFM2.5-8B-A1B mit nur 1,5B aktiven Parametern auf Edge-Deployment. Google Gemma 4 12B hebt sich durch seinen encoder-freien, any-to-any-Ansatz über Text, Bild, Audio und Video hinweg ab und liefert gleichzeitig eine 23-Checkpoint-QAT-Welle für Mobile- und MLX-Deployments. Im Bereich Bildgenerierung überraschte Ideogram mit der Veröffentlichung ihrer allerersten offenen Gewichte: Das 9,3B-Parameter-Flow-Matching-DiT-Modell Ideogram 4 belegt auf Design Arena und LMArena den zweiten Platz hinter GPT Image 2 und gilt als stärkstes offenes Modell für textreiche Bildgenerierung. Im Audio-Bereich lieferten gleich vier Labore in derselben Woche TTS-Systeme aus; darunter sticht RedNotes dots.tts als einzige vollständig kontinuierliche TTS-Pipeline ohne Codec-Stufe hervor. Ergänzt wird das Bild durch Modelle für Video, 3D-Rekonstruktion und physische KI, etwa NVIDIAs Cosmos3-Super als 64B-Weltmodell für Action-Trajektorien.
- NVIDIA Nemotron 3 Ultra: 550B Parameter, nur 55B aktiv, 1M-Token-Kontext, MMLU 89,1 – beansprucht ~5× Durchsatz gegenüber Dichte-Modellen auf Blackwell-GPUs via NVFP4.
- StepFun Step-3.7-Flash: 198B sparse MoE VLM mit ~11B aktiven Parametern, erreicht SWE-Bench PRO 56,3 – Apache 2.0 lizenziert.
- JetBrains Mellum2-12B-A2.5B-Thinking: erstes offenes MoE von JetBrains, erzielt Coding-Leistung nahe Qwen3-14B bei nur 2,5B aktiven Parametern.
- NVIDIA Nemotron-3.5 ASR (600M, Streaming): unterstützt laut Hersteller 17× mehr gleichzeitige Streams als das bisherige Parakeet RNNT 1.1B.
- Baidu NAVA (6,3B): gemeinsames Audio-Video-Generierungsmodell mit Best-in-Class-A/V-Sync, Apache 2.0; ByteDance Bernini-R und VAST TripoSplat bieten Single-Image-to-3D-Gaussian-Splats unter MIT-Lizenz.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.