Topic

Open Source

50 Beiträge der letzten 90 Tage zu Open Source — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

State of Open Source

★ verifiziert

Open Source · Lokale Inferenz wächst zur ernsthaften Cloud-Alternative

Aktueller Stand

Das Open-Source-Feld wird derzeit von zwei Dynamiken geprägt: einer rasanten Verdichtung des lokalen Inferenz-Ökosystems und einem zunehmenden Lizenzbewusstsein. Auf der Modellseite dominieren MoE-Architekturen — DeepSeek und Tencent setzen den Ton, Qwen bleibt als Basis für Consumer-Hardware-Setups die meistdiskutierte Modellreihe. Tencents Hy3 mit Apache-2.0-Lizenz ist ein klares Signal: Chinesische Labs nutzen offene Lizenzen gezielt, um westliche Adoption zu beschleunigen.

Auf der Tooling-Seite entsteht ein dichtes Paralleluniversum zu Cloud-Diensten — von Desktop-Apps bis zu Browser-Extensions. Die Community ist aktiv, aber fragmentiert: Viele Projekte befinden sich in frühen Alpha-Stadien. Mistral-CEO Mensch artikuliert öffentlich das Datenschutz-Argument für Open Source, was den Diskurs in Richtung Souveränität verschiebt. Reale Leistungsgrenzen bei agentic Coding-Workloads bleiben ein ungelöstes Problem.

Wichtigste Updates

Tencents Hy3 ist die prominenteste Modell-Veröffentlichung des Zeitraums. Das 295B-MoE-Modell mit nur 21B aktiven Parametern erscheint unter Apache 2.0 — ohne geografische Einschränkungen, was es von früheren chinesischen Open-Weight-Releases abhebt. Die Lizenzentscheidung ist industriepolitisch lesbar: Maximale Verbreitung über offene Lizenz, MoE-Design für praktikable lokale Inferenz trotz hoher Gesamtparameterzahl.

Qualcomms GenieX-Launch markiert einen Plattformwechsel für Windows-Entwickler ausserhalb des Nvidia-Ökosystems. Das Tool unterstützt llama.cpp-kompatible Q4_0-GGUF-Modelle auf CPU, GPU und NPU und macht On-Device-Inferenz auf Snapdragon-Laptops ohne dedizierte Grafikeinheit zugänglich — ein Schritt, der die Hardware-Basis für lokale LLMs strukturell verbreitert.

Im Tooling-Bereich ist das Tempo hoch, die Reife aber ungleich verteilt. SupraLabs veröffentlichte innerhalb kurzer Zeit zwei Modelle: ein 800M-Modell zur Komprimierung von Reasoning-Traces sowie den Supra-Router-51M für latenzarmes Prompt-Routing in bestehenden Inference-Pipelines — beide lokal ausführbar via GGUF.

Auf der Infrastruktur-Seite füllt Hugging Face mit dem neuen Kernels-Repository-Typ eine Lücke: GPU-Kernel-Entwickler können Implementierungen erstmals signiert und als eigenständige Artefakte veröffentlichen. Cosign-Signing und Trust-Remote-Code-Mechanismus adressieren ein konkretes Sicherheitsproblem, das mit der wachsenden Zahl community-entwickelter Kernels entstanden ist.

Ein Community-Fix für GitHub Copilots BYOK-Sperre zeigt zudem, wo proprietäre Systeme Druck durch Open-Source-Alternativen erhalten: Die Extension «GitHub Copilot LLM Gateway» ermöglicht echte Inline-Completion mit lokalen oder custom Modellen — eine Lücke, die Microsoft bisher nicht offiziell schliesst.

Was zu erwarten

Konkret angekündigt oder als Signal erkennbar: Die Community wartet auf ein mögliches Qwen 3.7 9B Open-Weights-Release, ein offizieller Roadmap-Hinweis fehlt bislang. Im MLX-Bereich deuten die Codex-Patches für DeepSeek V4 Flash darauf hin, dass weitere native Metal-Kernel-Optimierungen für Apple-Silicon-Nutzer folgen dürften. Das Psyche-Network-Projekt für dezentrales Training über Community-GPUs ist vorläufig — ob es über den Proof-of-Concept hinauskommt, hängt von validierbaren Trainingsruns ab. Im Tooling-Bereich stehen mehrere Alpha-Projekte (Kivarro, Steno) vor potenziellen Stabilitäts-Releases; konkretes Timing ist nicht kommuniziert. Die Debatte um lokale Coding-Agenten auf Consumer-Hardware dürfte sich mit neuen Modell-Releases weiterentwickeln.

Kuratiert von Gregor Scheiwiller · 6. Juli 2026 · Methodologie

Top-Tools rund um Open Source

Qwen184×Llama140×Claude97×Hugging Face88×GPT87×NVIDIA Hardware69×

Top-Unternehmen in Open Source

Hugging Face86×NVIDIA69×DeepSeek56×OpenAI47×Google DeepMind

Archiv

Juni 2026

Beiträge · 50

LAUNCHr/LocalLLaMAheute

Moondream 3.1: Vision-Language-Modell mit 9B Params und nur 2B aktiv

Durch die MoE-Architektur mit nur 2B aktiven Parametern bleibt das Modell trotz 9B Gesamtgröße schnell und kostengünstig – interessant für lokale Deployments mit visuellen Reasoning- und Detection-Anforderungen.

MEINUNGInterconnects (Lambert)heute

Lambert: Open-Source-KI droht regulatorische Zweitklassigkeit binnen 6 Monaten

Ein mögliches Capability-Threshold-Regime würde Open-Weight-Modelle oberhalb eines bestimmten Niveaus blockieren oder verzögern, während Closed-Model-Anbieter schneller Freigaben erhalten. Inferenz-Firmen, Fine-Tuning-Anbieter und Produktentwickler auf Basis offener Modelle würden direkt getroffen.

MEINUNG

Open Source · Lokale Inferenz wächst zur ernsthaften Cloud-Alternative

Aktueller Stand

Wichtigste Updates

Was zu erwarten

Top-Tools rund um Open Source

Top-Unternehmen in Open Source

Archiv

Beiträge · 50

Moondream 3.1: Vision-Language-Modell mit 9B Params und nur 2B aktiv

Lambert: Open-Source-KI droht regulatorische Zweitklassigkeit binnen 6 Monaten

Codex als lokales Harness: Community vergleicht mit Pi Code und Open Code

Kreuzberg wird zu Xberg: Lokales Dokument-Extraction-Tool erhält neuen Namen

Anthropics J-Space-Forschung auf Qwen3-8B übertragen: Stilles Reasoning sichtbar machen

Hunyuan3D-Swift: Image-to-3D-Port für Apple Silicon und iPhone

Nemotron Puzzle 75B auf 64GB M2 Max: 4-bit vs. 5-bit Experten-Quantisierung

Qwen3.6-27B Tool-Call-Fehler: Workarounds für lokale Coding-Agenten

Zer0Fit: MCP-Server für Google TabFM & TimesFM als lokale Zero-Shot-ML-Lösung

Community-Diskussion: Aktueller Stand von Voice-to-Voice-Modellen

SGLang schlägt vLLM bei 4× RTX 5060 Ti Multi-GPU-Setup für Qwen3.6-27B

Vellium v1.0.0: Lokaler LLM-Desktop-Workspace erreicht erstes Stable-Release

Voodoo Quant schlägt Unsloth Dynamic 2.0 bei KLD um 95% für Qwen3.5

llama-server KV-Cache-Tuning für große Modelle auf Strix Halo

Xiaomi lädt MiMo-V2.5-DFlash still auf Hugging Face hoch

Erfahrungsbericht: 100B+ LLMs auf Laptop mit 4 GB VRAM via NVMe-Offloading

llama.cpp-Bug: Tesla P100 rechnete jahrelang in falscher Präzision

Llama.cpp auf CPU schlägt iGPU-Backends im Mini-PC-Homelab-Test

Community-Experiment: Gemma4-31B auf 40,5B Parameter durch Layer-Insertion erweitert

Qwen 3.6-27b lokal vs. Claude Opus 4.8: Agentic Workflow im Vergleich

Jacobian-Lens Visualizer und Live-Steerer für GGUF-Modelle auf llama.cpp

Community diskutiert: Nächster VRAM-Upgrade-Schritt nach Qwen3 32B

sqlite-utils 4.1 bringt --code-Option und Strict-Mode-Umschaltung

PCIe-Bandbreite bei Dual-GPU: Tensor- vs. Pipeline-Parallel in llama.cpp verglichen

llama.cpp b9966 behebt 29 Regex-Rekompilierungen pro Tensor im Decode-Thread

Community-Diskussion: Kosten von SXM2-GPUs (V100/A100) im Aftermarket-Setup

Community-Seite sammelt Hardware-Rezepte für lokale LLM-Setups

Mesh LLM: Verteiltes KI-Computing über iroh-Netzwerk

20 GB VRAM für 100 Dollar: Dual NVIDIA P102-100 als Budget-LLM-Setup

Praxistest: Vier RTX 5060 Ti für lokale Codegenerierung mit Qwen3.6-27B

Community-Diskussion: Praxistipps zum Fine-Tuning kleiner Sprachmodelle

Flaxeo Image: Desktop-UI für Stable Diffusion cpp auf Windows und Linux

geohot kritisiert KI-Doomismus und fordert lokale, benutzeralignierte Modelle

Community diskutiert Context-Limits von Qwen 3.6 27B (Q8_0) bei 100k Token

Dual-GPU-Setup mit zwei RTX 3060 verhindert MoE-Modell-Loading

Community-Tool nutzt Anthropics Jacobian-Lens zur Modell-Verhaltenssteuerung

Hardware-Nutzung optimieren: Qwen3 27B Q8 auf 4090 + 3090Ti

MI50-GPU-Setup: PLX PEX8749-Switch kaum Einfluss auf Inferenz-Speed

SQLite/FTS5 Patentdatenbank auf 5,36 Mio. Einträge skaliert – Praxiserkenntnisse

EPYC 9374f vs. 9135: CPU-Benchmarks für lokale LLM-Inferenz mit ik_llama.cpp

EverFern: Open-Source Desktop-Agent als lokale Alternative zu Claude Cowork

Pi Coding Agent: Zielorientierter LLM-Orchestrator mit State-Machine-Kern

Schnellstes Speculative Decoding für Qwen via SGLang-Fork

Reddit-Diskussion: Lokale Modelle und Sicherheitslücken bei extremistischer Nutzung

US-Techbranche besorgt über Chinas günstige Open-Source-KI-Modelle

Ghost Font: Bewegungsbasierte Schrift täuscht führende KI-Modelle

Qwen3 30B A3B mit 50 tok/s auf RTX 5060 Ti: Custom CUDA-Engine schlägt llama.cpp um 50%

Qwen3 35B-A3B: Q8_0 auf CPU übertrifft Q4_K_M auf GPU deutlich

Community-Projekt: Logit-Distillation statt Text-Traces für lokale Coding-Modelle

PrismaQuant: Neue Quantisierungsmethode für Blackwell-GPUs mit vLLM