Proxy-Pointer RAG: Multimodale Antworten ohne multimodale Embeddings

Warum es zählt

Wer multimodale Chatbots auf PDF-Dokumenten baut, umgeht damit teure multimodale Embeddings: Die Methode nutzt strukturbasierte Chunking-Grenzen statt Sliding-Window, was Bild-Grounding deutlich zuverlässiger macht.

— Lumeric Redaktion

Proxy-Pointer RAG ersetzt das klassische Sliding-Window-Chunking durch eine baumbasierte Segmentierung entlang semantischer Abschnittsgrenzen. Dadurch bleiben Bilder, Tabellen und Formeln stets dem richtigen Dokument-Abschnitt zugeordnet – ein Problem, das bei konventionellem RAG regelmäßig zu falschen oder fehlenden Bildreferenzen im LLM-Output führt. Autor Partha Sarkar demonstriert den Ansatz anhand eines Prototyps auf fünf CC-BY-lizenzierten KI-Forschungspapieren (CLIP, Nemobot, GaLore, VectorFusion, VectorPainter) mit insgesamt 270 extrahierten Bildartefakten. Die PDF-Extraktion erfolgt über die Adobe PDF Extract API, Embeddings liefert das rein textbasierte Modell gemini-embedding-001 (1536 Dimensionen, reduziert von 3072). Für Noise-Filter, Re-Ranking, Synthese und Vision-Filter kommt gemini-2.5-flash-lite-preview zum Einsatz; als Vektorindex wird FAISS genutzt. Multimodale Embedding-Modelle werden bewusst vermieden, da sie auf Ähnlichkeit statt auf Dokumentstruktur optimieren und dadurch visuell ähnliche Artefakte aus verschiedenen Quellen verwechseln können. In früheren Arbeiten belegte der Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten durch den Einsatz sogenannter „Strategic Pointers" als Breadcrumb-Index.

Was wir noch wissen

Pipeline ist vollständig open-source und als lauffähiger Prototyp verfügbar
270 Bildartefakte (Figures, Tabellen, Formeln) aus 5 CC-BY-Papieren wurden extrahiert
Embedding-Dimensionen von 3072 auf 1536 reduziert für schnellere Suche und geringeren Speicherbedarf
Adobe PDF Extract API liefert Artefakte als relative Pfade (z. B. figures/fileoutpart11.png) im Markdown
Vorgänger-Ansatz erzielte laut Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten

Quelle lesentowardsdatascience.com

Foundation Modelle Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Proxy-Pointer RAG: Multimodale Antworten ohne multimodale Embeddings

ToolsGemini

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Pipeline ist vollständig open-source und als lauffähiger Prototyp verfügbar
270 Bildartefakte (Figures, Tabellen, Formeln) aus 5 CC-BY-Papieren wurden extrahiert
Embedding-Dimensionen von 3072 auf 1536 reduziert für schnellere Suche und geringeren Speicherbedarf
Adobe PDF Extract API liefert Artefakte als relative Pfade (z. B. figures/fileoutpart11.png) im Markdown
Vorgänger-Ansatz erzielte laut Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Proxy-Pointer RAG: Multimodale Antworten ohne multimodale Embeddings

Frag die KI zum Artikel

Verwandte Beiträge

Proxy-Pointer RAG: Multimodale Antworten ohne multimodale Embeddings

Frag die KI zum Artikel

Verwandte Beiträge