Topic

Foundation-Modelle

50 Beiträge der letzten 90 Tage zu Foundation-Modelle — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

State of Foundation-Modelle

★ verifiziert

Foundation-Modelle · MoE-Architektur und Open-Weights-Druck verdrängen proprietäre Monolithen

Aktueller Stand

Das Feld der Foundation-Modelle wird derzeit von zwei gegenläufigen Kräften geprägt: dem Kostendruck durch Mixture-of-Experts-Architekturen einerseits und dem wachsenden Gewicht chinesischer Open-Weights-Releases andererseits. DeepSeek und Tencent setzen mit MoE-Modellen im 280–295B-Bereich Benchmarks bei Inferenzeffizienz, während Qwen und Gemma die Community-Adoption dominieren – auf Consumer-Hardware bis hin zur einzelnen RTX 3090 oder dem MacBook Air.

Die US-Frontier-Labs OpenAI und Anthropic halten die Qualitätsspitze, geraten aber unter Druck: Claude fehlt eine europäische Datenzone auf Microsoft Foundry, OpenAIs GPT-5.5-Codex zeigt unbestätigte Reasoning-Token-Limits. Mistral positioniert sich als europäische Sovereign-Alternative, agiert dabei aber zunehmend nach Mustern, die Kritiker mit Palantirs Staatsvertragsstrategie vergleichen. Offene Fragen zu Transparenz – von Anthropics Systemprompt-Handhabung bis zu undokumentierten OpenAI-Schwellenwerten – belasten das Vertrauen in proprietäre Anbieter.

Wichtigste Updates

Tencents Hy3 markiert den bislang grössten Open-Weights-Release des Berichtszeitraums: Das 295B-MoE-Modell mit nur 21B aktiven Parametern erscheint unter Apache-2.0-Lizenz und ist damit ohne geografische Einschränkungen kommerziell einsetzbar. Das Design folgt dem mittlerweile etablierten MoE-Muster, das auch DeepSeek V4 Flash prägt – bei dem laut Community-Analyse ebenfalls nur ein Bruchteil der 284B Parameter pro Token aktiv ist, was die Inferenzkosten trotz hoher Gesamtparameterzahl drastisch senkt. Für Anbieter und Betreiber bedeutet dies: Gesamtparameterzahl ist als Proxy für Betriebskosten weitgehend irrelevant geworden.

Auf der Deployment-Seite gibt es konkrete Fortschritte bei der Consumer-Hardware-Performance. Ein Patch für DeepSeek V4 Flash auf Apple Silicon bringt 1,6× schnelleres Prefill und 3× schnelleres Decoding durch native Metal-Kernel statt generischer Pfade – ohne Modelltausch. Parallel dazu zeigt ein Benchmark von Qwen3.6 27B auf der RTX 5090 durchschnittlich 140 Token/s mit llama.cpp-Tuning, wobei MTP-spekulative Dekodierung und q8-KV-Cache als entscheidende Stellschrauben identifiziert werden.

Anthropics Claude auf Microsoft Azure Foundry erreicht General Availability – aber ohne europäische Datenzone. Für Unternehmen in der EU mit Datenresidenzpflichten bleibt der Foundry-Kanal damit vorerst gesperrt; Anthropic verweist auf Bedrock und Vertex AI als Alternativen. Dieser Schritt illustriert eine strukturelle Spannung: Frontier-Modelle expandieren aggressiv in Enterprise-Kanäle, ohne regulatorische Anforderungen in Europa vollständig abzudecken.

Mistral-CEO Arthur Mensch warnt unterdessen öffentlich davor, Geschäftsprozessdaten an proprietäre Frontier-Anbieter zu übergeben – und kündigt für Juli 2026 ein neues Open-Weight-Modell mit Early Access an. Das angekündigte Modell via Mistrals Forge-Plattform wird als Sovereign-AI-Alternative positioniert, wobei Beobachter auf Ähnlichkeiten zu Palantirs Regierungsvertrags-Strategie hinweisen.

Was zu erwarten

Mistrals angekündigtes Open-Weight-Modell soll laut Post-Hinweisen ab Juli 2026 über Early Access verfügbar werden – ein konkreter Release-Zeitpunkt oder Parameterzahl wurden nicht kommuniziert. In der Qwen-Familie fragt die Community nach einem Qwen 3.7 9B als Open-Weights-Release; ein offizieller Roadmap-Hinweis fehlt bislang, und es bleibt unklar, ob ein solches Modell überhaupt erscheint. Für OpenAIs Codex-Umgebung kursiert ein nicht bestätigter Hinweis auf GPT-5.6 Sol Ultra; Zeitplan und Umfang sind ohne Primärquelle nicht beurteilbar. Auf der Infrastrukturseite bestehen noch Lücken beim SWA-Cache-Handling in llama.cpp, die laut Community-Benchmark weiterer Patches bedürfen. Ob Tencents Hy3 auf internationalen Benchmarks mit etablierten Modellen mithalten kann, steht noch aus.

Kuratiert von Gregor Scheiwiller · 6. Juli 2026 · Methodologie

Top-Tools rund um Foundation-Modelle

GPT79×Claude60×Qwen60×Llama37×Hugging Face31×Gemini26×

Top-Unternehmen in Foundation-Modelle

Hugging Face31×OpenAI30×Anthropic29×DeepSeek23×Meta AI

Archiv

Juni 2026

Beiträge · 50

MEINUNGInterconnects (Lambert)heute

Lambert: Open-Source-KI droht regulatorische Zweitklassigkeit binnen 6 Monaten

Ein mögliches Capability-Threshold-Regime würde Open-Weight-Modelle oberhalb eines bestimmten Niveaus blockieren oder verzögern, während Closed-Model-Anbieter schneller Freigaben erhalten. Inferenz-Firmen, Fine-Tuning-Anbieter und Produktentwickler auf Basis offener Modelle würden direkt getroffen.

MEINUNGThe Verge AIheute

Apples gescheitertes Autopilot-Projekt legte Grundstein für Neural Engine

Die Neural Engine ist heute das Fundament für lokale KI-Inferenz auf Apple-Geräten. Entwickler, die auf Apple Silicon setzen, profitieren direkt von dieser Architekturentscheidung, die ursprünglich für autonomes Fahren gedacht war.

FORSCHUNG

Foundation-Modelle · MoE-Architektur und Open-Weights-Druck verdrängen proprietäre Monolithen

Aktueller Stand

Wichtigste Updates

Was zu erwarten

Top-Tools rund um Foundation-Modelle

Top-Unternehmen in Foundation-Modelle

Archiv

Beiträge · 50

Lambert: Open-Source-KI droht regulatorische Zweitklassigkeit binnen 6 Monaten

Apples gescheitertes Autopilot-Projekt legte Grundstein für Neural Engine

Neues KI-Modell generiert Minecraft-Welten neu

RAG vs. Fine-Tuning: Unterschiede und Einsatzgebiete im Vergleich

KI fördert Forschungskarrieren, verengt aber Ideenvielfalt in der Wissenschaft

Nemotron Puzzle 75B auf 64GB M2 Max: 4-bit vs. 5-bit Experten-Quantisierung

GPT-5.6, Grok 4.5 und Muse Spark 1.1: Frontier-KI wird zur Ausführungsinfrastruktur

Sebastian Raschkas Newsletter Ahead of AI erreicht 200.000 Abonnenten

Anthropic: Claude Cowork wird vor allem für Büro-Routinearbeit genutzt

Altman schwenkt um: AI schaffe per saldo mehr Jobs als sie vernichte

Vellium v1.0.0: Lokaler LLM-Desktop-Workspace erreicht erstes Stable-Release

AgenticSTS schlägt Slay the Spire 2 mit strukturiertem Gedächtnis statt Chat-Log

Xiaomi lädt MiMo-V2.5-DFlash still auf Hugging Face hoch

Erfahrungsbericht: 100B+ LLMs auf Laptop mit 4 GB VRAM via NVMe-Offloading

J-Space Halluzinations-Signal von Anthropic auf Qwen3-4B über 7 Datensätze getestet

Llama.cpp auf CPU schlägt iGPU-Backends im Mini-PC-Homelab-Test

Community-Experiment: Gemma4-31B auf 40,5B Parameter durch Layer-Insertion erweitert

Community diskutiert: Nächster VRAM-Upgrade-Schritt nach Qwen3 32B

Meinungsstück: Warum „Frag einfach Claude" keine echte Antwort ist

20 GB VRAM für 100 Dollar: Dual NVIDIA P102-100 als Budget-LLM-Setup

Community-Diskussion: Praxistipps zum Fine-Tuning kleiner Sprachmodelle

Hardware-Nutzung optimieren: Qwen3 27B Q8 auf 4090 + 3090Ti

OpenAI fokussiert ChatGPT auf Familien und ältere Nutzer

Community-Debatte: Sind MoE-Modelle wirklich nur so gut wie ihre aktiven Parameter?

Warum Frontier-AI-Modelle noch immer halluzinieren

MELT: Systematisches Benchmarking von LLMs auf Smartphones und Edge-Devices

Schnellstes Speculative Decoding für Qwen via SGLang-Fork

US-Techbranche besorgt über Chinas günstige Open-Source-KI-Modelle

Orca: Chinesisches World Model für Robotik ohne Action-Labels trainiert

Qwen3 30B A3B mit 50 tok/s auf RTX 5060 Ti: Custom CUDA-Engine schlägt llama.cpp um 50%

Meta Muse Spark 1.1 übertrifft GLM-5.2 im Coding bei niedrigeren Kosten

OpenAI räumt Fehler beim Launch von ChatGPT Work und GPT-5.6 Sol ein

Closed-Source-LLM-Tokenizer per Chat-API rekonstruieren

PrismaQuant: Neue Quantisierungsmethode für Blackwell-GPUs mit vLLM

GPT-5.6 Rollout: 36 API-Varianten sorgen für UX-Chaos bei Nutzern

GGUF-Quants für Hy3 295B MoE und NVIDIA Nemotron-Labs-Audex-30B veröffentlicht

Meta entfernt Instagram-KI-Feature nach Nutzerprotesten

Nutzer kritisieren LM Arena für fehlende Open-Source-Modelle

Apple verklagt OpenAI wegen Diebstahl von Geschäftsgeheimnissen

12 Modelle bauen 4 Apps: GPT-5.6, Grok 4.5, Claude und Muse Spark im Vergleich

Entwickler protestieren gegen Abschaltung von Gemini 2.5 Flash

Hobby-Projekt: LLM from Scratch auf 160 GB Texten aus dem 19. Jahrhundert

Bericht: Wie Boko Haram Frontier-KI für Terrorismus einsetzt

GPT-5.6 Sol trainiert kleineres Luna-Modell autonom nach

GPT-5.6 Sol Ultra liefert Beweis für die Cycle Double Cover Conjecture

Strix Halo: Lokale LLM-Inferenz für unter 50 Cent pro Tag

Google DeepMind erklärt innere Gedankenprozesse von KI

EU droht Meta mit Milliardenstrafe wegen Autoplay und Infinite Scroll

PyTorch: Normalisierung kostenlos durch Fusion in GEMM- und Attention-Kernel

Community-Idee: Offline-LLM-Kit auf USB-Stick mit Wikipedia-Wissensbasis