Numind veröffentlicht NuExtract3: 4B-VLM für Dokument-Extraktion unter Apache-2.0

ToolsOllama Qwen NVIDIA Hardware Llama Hugging Face

Warum es zählt

Wer Dokumenten-Pipelines lokal betreiben will, bekommt mit NuExtract3 eine selbst-hostbare Alternative zu proprietären OCR-/Extraktions-APIs – mit ab 4 GB VRAM und mehreren Quantisierungsformaten (GPTQ, FP8, Q4, GGUF, MLX) für breite Hardware-Kompatibilität.

— Lumeric Redaktion

NuExtract3 ist der Nachfolger von NuMarkdown-8B-Thinking und wurde von Numind auf einem Knoten mit 8×H100-GPUs über drei Tage trainiert, um möglichst langen Dokumentkontext zu unterstützen. Das Modell basiert auf Qwen3.5-4B und ist für zwei Kernaufgaben ausgelegt: die Konvertierung von Dokument-Images in Markdown sowie die Extraktion strukturierter Daten anhand eines benutzerdefinierten JSON-Templates. Unterstützt werden PDFs, Screenshots, Formulare, Tabellen, Quittungen, Rechnungen und mehrseitige Dokumente. Numind stellt Gewichte in mehreren Formaten bereit – Safetensors, GGUF und MLX – sowie Quantisierungen wie GPTQ, W8A8, FP8, Q4 und Q6. Für den Betrieb reichen laut Hersteller bereits 4 GB VRAM. Getestet wurden vLLM, SGLang und llama.cpp als Inferenz-Backends. Das Modell ist über einen kostenlosen Hugging-Face-Space ohne Registrierung ausprobierbar. Ein wissenschaftliches Paper befindet sich laut Autor aktuell im Peer-Review und ist noch nicht auf ArXiv verfügbar.

Was wir noch wissen

Basiert auf Qwen3.5-4B, lizenziert unter Apache-2.0 — kommerzielle Nutzung erlaubt.
Training auf 8×H100-Node über 3 Tage für maximale Dokumentkontext-Länge.
Für beste Markdown-Ergebnisse empfiehlt Numind page-by-page-Verarbeitung mit Parallelisierung.
Getestete Inferenz-Backends: vLLM, SGLang, llama.cpp; Ollama-Support noch nicht offiziell.
Kostenloser Hugging-Face-Space ohne Registrierung: spaces/numind/NuExtract3.

Quelle lesenreddit.com

Open Source Multimodal Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Numind veröffentlicht NuExtract3: 4B-VLM für Dokument-Extraktion unter Apache-2.0

ToolsOllama Qwen NVIDIA Hardware Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Basiert auf Qwen3.5-4B, lizenziert unter Apache-2.0 — kommerzielle Nutzung erlaubt.
Training auf 8×H100-Node über 3 Tage für maximale Dokumentkontext-Länge.
Für beste Markdown-Ergebnisse empfiehlt Numind page-by-page-Verarbeitung mit Parallelisierung.
Getestete Inferenz-Backends: vLLM, SGLang, llama.cpp; Ollama-Support noch nicht offiziell.
Kostenloser Hugging-Face-Space ohne Registrierung: spaces/numind/NuExtract3.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Numind veröffentlicht NuExtract3: 4B-VLM für Dokument-Extraktion unter Apache-2.0

Frag die KI zum Artikel

Verwandte Beiträge

Numind veröffentlicht NuExtract3: 4B-VLM für Dokument-Extraktion unter Apache-2.0

Frag die KI zum Artikel

Verwandte Beiträge