IBM granite-docling-2stage-258M: Verbessertes OCR durch dynamisches Layout-Prompting

Warum es zählt

Wer Docling für OCR-Pipelines einsetzt, kann mit dem 2-Stage-Modell potenziell bessere Ergebnisse bei Out-of-Distribution-Dokumenten erzielen – bei identischer Parameterzahl (258M) ohne zusätzliche Inferenzkosten durch Modellgröße.

— Lumeric Redaktion

Der Reddit-Post auf r/LocalLLaMA fragt die Community, ob jemand praktische Verbesserungen zwischen IBMs granite-docling-258M und dem neueren granite-docling-2stage-258M festgestellt hat. Der wesentliche architektonische Unterschied: Das 2-Stage-Modell baut einen dynamischen Prompt auf, der Layout-Objekte einer Seite vorberechnet, bevor der eigentliche OCR-Schritt erfolgt. IBM bewirbt dies als robustere Verarbeitung von Dokumenten, die außerhalb der Trainingsverteilung liegen – also etwa ungewöhnliche Layouts oder Formulartypen. Beide Modelle haben identische 258M Parameter, der Mehraufwand liegt im Prompting-Mechanismus, nicht in der Modellgröße. Die Community-Diskussion dreht sich um echte Praxiserfahrungen, da offizielle Benchmark-Vergleiche zwischen den beiden Varianten im Post nicht genannt werden.

Was wir noch wissen

granite-docling-2stage-258M basiert auf dem Basis-Modell granite-docling-258M von IBM
Kerninnovation: dynamischer Prompt, der Layout-Objekte einer Seite vorberechnet (Precomputation)
Ziel ist höhere Robustheit bei Out-of-Distribution-Daten, z.B. ungewöhnliche Dokumentlayouts
Beide Modellvarianten haben identische Parameterzahl: 258M
Post ist eine offene Community-Frage – keine eigenen Benchmark-Zahlen im Auszug genannt

Quelle lesenreddit.com

Open Source Multimodal Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

IBM granite-docling-2stage-258M: Verbessertes OCR durch dynamisches Layout-Prompting

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

granite-docling-2stage-258M basiert auf dem Basis-Modell granite-docling-258M von IBM
Kerninnovation: dynamischer Prompt, der Layout-Objekte einer Seite vorberechnet (Precomputation)
Ziel ist höhere Robustheit bei Out-of-Distribution-Daten, z.B. ungewöhnliche Dokumentlayouts
Beide Modellvarianten haben identische Parameterzahl: 258M
Post ist eine offene Community-Frage – keine eigenen Benchmark-Zahlen im Auszug genannt

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

IBM granite-docling-2stage-258M: Verbessertes OCR durch dynamisches Layout-Prompting

Frag die KI zum Artikel

Verwandte Beiträge

IBM granite-docling-2stage-258M: Verbessertes OCR durch dynamisches Layout-Prompting

Frag die KI zum Artikel

Verwandte Beiträge