Vision-Fähigkeiten per Pixtral-Encoder in reine Text-Modelle einpfropfen
Der Reddit-Nutzer /u/a_beautiful_rhind beschreibt eine Technik, mit der Vision-Fähigkeiten nachträglich in Text-only-Modelle „eingepfropft" werden können. Ausgangspunkt ist die Architektur von llama.cpp, die Vision-Encoder als separate mmproj-Dateien behandelt. Da Mistral sowohl Pixtral als auch Medium-Vision-Encoder mit passenden Tokenizer-Einträgen (z. B. [IMG]-Token) veröffentlicht hat, lassen sich diese Projektoren prinzipiell mit beliebigen Modellen kombinieren, deren Tokenizer die nötigen Sondertokens enthält. Im Experiment mit Behemoth-X und dem Pixtral-Large-Instruct-2411-Encoder scheiterte der erste Versuch, weil das Modell den [IMG_END]-Token nicht kennt und die Ausgabe abbricht. Die Lösung: In mtmd.cpp den img_end-String von „[IMG_END]" auf „\n" umstellen oder das Modell neu konvertieren, um die Token-ID zu korrigieren. Nach dem Patch erkennt das Modell Bilder erkennbar – wenn auch nicht perfekt. Als weiteres Beispiel nennt der Autor das 31B-Gemma-Modell, dessen Tokenizer vollständige ASR- und Audio-Token-Definitionen enthält, was auf latente Audio-Fähigkeiten hindeutet.
- llama.cpp trennt Vision-Encoder (mmproj-Dateien) vom Hauptmodell — das ermöglicht den Austausch von Encodern
- Mistral hat Pixtral-Large-Instruct-2411 und Medium-Vision-Encoder mit öffentlichen mmproj-Gewichten veröffentlicht
- Kritischer Patch in mtmd.cpp: img_end von '[IMG_END]' auf '\n' ändern, damit Behemoth-X die Ausgabe nicht abbricht
- 31B Gemma enthält im Tokenizer vollständige Audio-Token (audio_token, boa_token, eoa_token etc.) — mögliche latente ASR-Fähigkeiten
- Ansatz könnte laut Autor für Devstral 2 oder andere Modelle mit passenden Tokenizer-Einträgen besser funktionieren
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
MiMo v2.5 erhält Vision-Support in llama.cpp
- FORSCHUNGhuggingface.co2w
INSET: Unified-Multimodal-Modell bettet Bilder als native Token in Textinstruktionen
- FORSCHUNGarxiv.org1w
DiVT: Semantische Visual Tokenisierung für multimodale Sprachmodelle
- FORSCHUNGarxiv.org1w
Slot-MLLM: Objektzentrischer visueller Tokenizer für multimodale LLMs
Vision-Fähigkeiten per Pixtral-Encoder in reine Text-Modelle einpfropfen
Der Reddit-Nutzer /u/a_beautiful_rhind beschreibt eine Technik, mit der Vision-Fähigkeiten nachträglich in Text-only-Modelle „eingepfropft" werden können. Ausgangspunkt ist die Architektur von llama.cpp, die Vision-Encoder als separate mmproj-Dateien behandelt. Da Mistral sowohl Pixtral als auch Medium-Vision-Encoder mit passenden Tokenizer-Einträgen (z. B. [IMG]-Token) veröffentlicht hat, lassen sich diese Projektoren prinzipiell mit beliebigen Modellen kombinieren, deren Tokenizer die nötigen Sondertokens enthält. Im Experiment mit Behemoth-X und dem Pixtral-Large-Instruct-2411-Encoder scheiterte der erste Versuch, weil das Modell den [IMG_END]-Token nicht kennt und die Ausgabe abbricht. Die Lösung: In mtmd.cpp den img_end-String von „[IMG_END]" auf „\n" umstellen oder das Modell neu konvertieren, um die Token-ID zu korrigieren. Nach dem Patch erkennt das Modell Bilder erkennbar – wenn auch nicht perfekt. Als weiteres Beispiel nennt der Autor das 31B-Gemma-Modell, dessen Tokenizer vollständige ASR- und Audio-Token-Definitionen enthält, was auf latente Audio-Fähigkeiten hindeutet.
- llama.cpp trennt Vision-Encoder (mmproj-Dateien) vom Hauptmodell — das ermöglicht den Austausch von Encodern
- Mistral hat Pixtral-Large-Instruct-2411 und Medium-Vision-Encoder mit öffentlichen mmproj-Gewichten veröffentlicht
- Kritischer Patch in mtmd.cpp: img_end von '[IMG_END]' auf '\n' ändern, damit Behemoth-X die Ausgabe nicht abbricht
- 31B Gemma enthält im Tokenizer vollständige Audio-Token (audio_token, boa_token, eoa_token etc.) — mögliche latente ASR-Fähigkeiten
- Ansatz könnte laut Autor für Devstral 2 oder andere Modelle mit passenden Tokenizer-Einträgen besser funktionieren
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
MiMo v2.5 erhält Vision-Support in llama.cpp
- FORSCHUNGhuggingface.co2w
INSET: Unified-Multimodal-Modell bettet Bilder als native Token in Textinstruktionen
- FORSCHUNGarxiv.org1w
DiVT: Semantische Visual Tokenisierung für multimodale Sprachmodelle
- FORSCHUNGarxiv.org1w
Slot-MLLM: Objektzentrischer visueller Tokenizer für multimodale LLMs