Foundation-Modelle
50 Beiträge der letzten 90 Tage zu Foundation-Modelle — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.
Foundation-Modelle · Effizienz, Sicherheitsdefizite und Architekturforschung prägen das Feld
Aktueller Stand
Das Feld der Foundation-Modelle ist gegenwärtig weniger von spektakulären Modell-Releases geprägt als von einer dichten Schicht technischer Detailarbeit: Effizienzgewinne in Training und Inferenz, Architekturvarianten für spezifische Einsatzkontexte und eine wachsende Literatur zu strukturellen Schwächen bestehender Systeme. Forschungsgruppen aus dem akademischen Bereich dominieren die Publikationsdichte; grosse Labs spielen in den vorliegenden Posts eher als Benchmark-Referenz denn als aktive Treiber eine Rolle.
Zwei Spannungen sind dabei gut erkennbar: Erstens die Diskrepanz zwischen dem Leistungsversprechen kleiner Modelle und ihren nachgewiesenen Reasoning-Defiziten – Stichwort Positional Shortcuts und Sicherheitslücken in generiertem Code. Zweitens der Druck auf Speicher- und Rechenkosten, dem mehrere Arbeiten mit Cache-Architekturen, Token-Pruning und Schedule-freien Optimierern begegnen. Edge-Inference auf älterer Hardware – V100-Cluster, Jetson-Plattformen – gewinnt als eigenständiges Thema an Kontur.
Wichtigste Updates
Sicherheitslücken in LLM-generiertem Code sind kein Randproblem: Eine Studie zeigt, dass alle sieben getesteten Modelle ohne Ausnahme Code mit kritischen Schwachstellen produzieren – ein Befund, der Teams, die LLM-Output direkt in Produktionssysteme einspeisen, zu obligatorischen Security-Reviews zwingt. Die Studie benennt damit ein systemisches, nicht modellspezifisches Risiko.
Im Bereich kleiner Modelle dokumentiert eine separate Arbeit, dass LMs im 1–3B-Bereich beim Arithmetik-Reasoning Zahlen kopieren statt zu rechnen – die sogenannten Positional Shortcuts. Das hat direkte Implikationen für die Validität von Chain-of-Thought-Evaluierungen in diesem Grössenbereich: Gemessene Reasoning-Performance reflektiert möglicherweise Mustererkennung, nicht logische Ableitung.
Für die Long-Context-Inferenz schlägt Tensor Cache eine zweistufige KV-Cache-Architektur vor, die Informationsverlust ausserhalb des Sliding Window durch Eviction-Memory kompensiert – ohne unbegrenztes Speicherwachstum. Der Ansatz adressiert eine strukturelle Schwäche von Bounded-State-Transformern, die bisher Kontext jenseits des Fensters schlicht verwarf.
Beim Inferenz-Routing zeigt EDRM, dass entropiebasiertes CoT-Routing den Token-Verbrauch um bis zu 55 % senkt – ohne Modell-Retraining, mit lediglich 50 Kalibrierungssamples. Das ist ein pragmatisch einsetzbarer Ansatz für Deployments, die Inferenzkosten senken wollen, ohne Modellarchitektur oder -gewichte anzupassen.
Schliesslich liefert eine Analyse von über 30 Open-Source-LLMs mittels Red-Teaming-Framework Evidenz für systematische politische Asymmetrien, die mit sinkender Modellgrösse zunehmen und je nach Herkunftsregion der Modelle stark variieren. Dieser Befund ist für alle Teams relevant, die Open-Source-Modelle in gesellschaftlich exponierten Anwendungen einsetzen – und bisher auf Alignment-Finetuning als hinreichende Absicherung vertrauten.
Was zu erwarten
Auf Basis der vorliegenden Posts sind keine konkreten Modell-Releases für die nahe Zukunft angekündigt. Die Forschungsrichtungen legen jedoch nahe, dass Cache-Architekturen (Tensor Cache, ObjectCache) und Routing-Mechanismen (EDRM) in den nächsten Monaten den Weg in Serving-Frameworks finden dürften – mehrere Arbeiten sind explizit auf Produktionsrelevanz ausgerichtet. Beim Thema Machine Unlearning deutet ManiF-SMC auf eine breitere Evaluierungswelle hin, da der Ansatz explizit als robuster gegenüber bestehenden Methoden positioniert wird. Im Bereich multimodaler Modelle stehen verbesserte Bewertungsmetriken für semantische Suffizienz aus – die entsprechende Arbeit zu VLM-Sprachpriors benennt deren Fehlen als offene Lücke. Alle genannten Erwartungen basieren ausschliesslich auf Hinweisen in den Quell-Posts; weiterführende Ankündigungen grösserer Labs liegen für diesen Zeitraum nicht vor.
Top-Unternehmen in Foundation-Modelle
Beiträge · 50
LiquidAI veröffentlicht LFM2.5-8B-A1B: Hybrid-Modell für On-Device-Einsatz
Mit nur 1B aktiven Parametern bei 8B Gesamtgröße läuft das Modell laut LiquidAI auf schwacher Hardware und übertrifft dabei größere Dense- und MoE-Modelle bei Instruction-Following – relevant für alle, die lokale Agenten-Pipelines auf Consumer-Geräten betreiben wollen.
Qwen3.6 35B: Markdown schlägt HTML bei Ausgabequalität deutlich
Trotz aktueller Diskussionen über HTML-Ausgabe in Tools wie Claude Code zeigt der Test, dass Markdown für lokale Modelle wie Qwen3.6 35B effizienter und qualitativ überlegen bleibt – HTML erzeugt massiv mehr Tokens bei schlechterer Bewertung.