Vision-Fähigkeiten per Pixtral-Encoder in reine Text-Modelle einpfropfen

Warum es zählt

Entwickler können Text-only-Modelle mit externen Multimodal-Projektoren (mmproj) nachrüsten, ohne Neutraining – vorausgesetzt, Tokenizer-Einträge wie [IMG] sind vorhanden und ggf. ein kleiner mtmd.cpp-Patch wird eingespielt.

— Lumeric Redaktion

Der Reddit-Nutzer /u/a_beautiful_rhind beschreibt eine Technik, mit der Vision-Fähigkeiten nachträglich in Text-only-Modelle „eingepfropft" werden können. Ausgangspunkt ist die Architektur von llama.cpp, die Vision-Encoder als separate mmproj-Dateien behandelt. Da Mistral sowohl Pixtral als auch Medium-Vision-Encoder mit passenden Tokenizer-Einträgen (z. B. [IMG]-Token) veröffentlicht hat, lassen sich diese Projektoren prinzipiell mit beliebigen Modellen kombinieren, deren Tokenizer die nötigen Sondertokens enthält. Im Experiment mit Behemoth-X und dem Pixtral-Large-Instruct-2411-Encoder scheiterte der erste Versuch, weil das Modell den [IMG_END]-Token nicht kennt und die Ausgabe abbricht. Die Lösung: In mtmd.cpp den img_end-String von „[IMG_END]" auf „\n" umstellen oder das Modell neu konvertieren, um die Token-ID zu korrigieren. Nach dem Patch erkennt das Modell Bilder erkennbar – wenn auch nicht perfekt. Als weiteres Beispiel nennt der Autor das 31B-Gemma-Modell, dessen Tokenizer vollständige ASR- und Audio-Token-Definitionen enthält, was auf latente Audio-Fähigkeiten hindeutet.

Was wir noch wissen

llama.cpp trennt Vision-Encoder (mmproj-Dateien) vom Hauptmodell — das ermöglicht den Austausch von Encodern
Mistral hat Pixtral-Large-Instruct-2411 und Medium-Vision-Encoder mit öffentlichen mmproj-Gewichten veröffentlicht
Kritischer Patch in mtmd.cpp: img_end von '[IMG_END]' auf '\n' ändern, damit Behemoth-X die Ausgabe nicht abbricht
31B Gemma enthält im Tokenizer vollständige Audio-Token (audio_token, boa_token, eoa_token etc.) — mögliche latente ASR-Fähigkeiten
Ansatz könnte laut Autor für Devstral 2 oder andere Modelle mit passenden Tokenizer-Einträgen besser funktionieren

Quelle lesenreddit.com

Open Source Multimodal Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Vision-Fähigkeiten per Pixtral-Encoder in reine Text-Modelle einpfropfen

ToolsLlama Mistral Hugging Face

CompaniesHugging Face Mistral AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

llama.cpp trennt Vision-Encoder (mmproj-Dateien) vom Hauptmodell — das ermöglicht den Austausch von Encodern
Mistral hat Pixtral-Large-Instruct-2411 und Medium-Vision-Encoder mit öffentlichen mmproj-Gewichten veröffentlicht
Kritischer Patch in mtmd.cpp: img_end von '[IMG_END]' auf '\n' ändern, damit Behemoth-X die Ausgabe nicht abbricht
31B Gemma enthält im Tokenizer vollständige Audio-Token (audio_token, boa_token, eoa_token etc.) — mögliche latente ASR-Fähigkeiten
Ansatz könnte laut Autor für Devstral 2 oder andere Modelle mit passenden Tokenizer-Einträgen besser funktionieren

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Vision-Fähigkeiten per Pixtral-Encoder in reine Text-Modelle einpfropfen

Frag die KI zum Artikel

Verwandte Beiträge

Vision-Fähigkeiten per Pixtral-Encoder in reine Text-Modelle einpfropfen

Frag die KI zum Artikel

Verwandte Beiträge