
Proxy-Pointer RAG: Multimodale Antworten ohne multimodale Embeddings
Proxy-Pointer RAG ersetzt das klassische Sliding-Window-Chunking durch eine baumbasierte Segmentierung entlang semantischer Abschnittsgrenzen. Dadurch bleiben Bilder, Tabellen und Formeln stets dem richtigen Dokument-Abschnitt zugeordnet – ein Problem, das bei konventionellem RAG regelmäßig zu falschen oder fehlenden Bildreferenzen im LLM-Output führt. Autor Partha Sarkar demonstriert den Ansatz anhand eines Prototyps auf fünf CC-BY-lizenzierten KI-Forschungspapieren (CLIP, Nemobot, GaLore, VectorFusion, VectorPainter) mit insgesamt 270 extrahierten Bildartefakten. Die PDF-Extraktion erfolgt über die Adobe PDF Extract API, Embeddings liefert das rein textbasierte Modell gemini-embedding-001 (1536 Dimensionen, reduziert von 3072). Für Noise-Filter, Re-Ranking, Synthese und Vision-Filter kommt gemini-2.5-flash-lite-preview zum Einsatz; als Vektorindex wird FAISS genutzt. Multimodale Embedding-Modelle werden bewusst vermieden, da sie auf Ähnlichkeit statt auf Dokumentstruktur optimieren und dadurch visuell ähnliche Artefakte aus verschiedenen Quellen verwechseln können. In früheren Arbeiten belegte der Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten durch den Einsatz sogenannter „Strategic Pointers" als Breadcrumb-Index.
- Pipeline ist vollständig open-source und als lauffähiger Prototyp verfügbar
- 270 Bildartefakte (Figures, Tabellen, Formeln) aus 5 CC-BY-Papieren wurden extrahiert
- Embedding-Dimensionen von 3072 auf 1536 reduziert für schnellere Suche und geringeren Speicherbedarf
- Adobe PDF Extract API liefert Artefakte als relative Pfade (z. B. figures/fileoutpart11.png) im Markdown
- Vorgänger-Ansatz erzielte laut Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Proxy-Pointer RAG: Multimodale Antworten ohne multimodale Embeddings
Proxy-Pointer RAG ersetzt das klassische Sliding-Window-Chunking durch eine baumbasierte Segmentierung entlang semantischer Abschnittsgrenzen. Dadurch bleiben Bilder, Tabellen und Formeln stets dem richtigen Dokument-Abschnitt zugeordnet – ein Problem, das bei konventionellem RAG regelmäßig zu falschen oder fehlenden Bildreferenzen im LLM-Output führt. Autor Partha Sarkar demonstriert den Ansatz anhand eines Prototyps auf fünf CC-BY-lizenzierten KI-Forschungspapieren (CLIP, Nemobot, GaLore, VectorFusion, VectorPainter) mit insgesamt 270 extrahierten Bildartefakten. Die PDF-Extraktion erfolgt über die Adobe PDF Extract API, Embeddings liefert das rein textbasierte Modell gemini-embedding-001 (1536 Dimensionen, reduziert von 3072). Für Noise-Filter, Re-Ranking, Synthese und Vision-Filter kommt gemini-2.5-flash-lite-preview zum Einsatz; als Vektorindex wird FAISS genutzt. Multimodale Embedding-Modelle werden bewusst vermieden, da sie auf Ähnlichkeit statt auf Dokumentstruktur optimieren und dadurch visuell ähnliche Artefakte aus verschiedenen Quellen verwechseln können. In früheren Arbeiten belegte der Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten durch den Einsatz sogenannter „Strategic Pointers" als Breadcrumb-Index.
- Pipeline ist vollständig open-source und als lauffähiger Prototyp verfügbar
- 270 Bildartefakte (Figures, Tabellen, Formeln) aus 5 CC-BY-Papieren wurden extrahiert
- Embedding-Dimensionen von 3072 auf 1536 reduziert für schnellere Suche und geringeren Speicherbedarf
- Adobe PDF Extract API liefert Artefakte als relative Pfade (z. B. figures/fileoutpart11.png) im Markdown
- Vorgänger-Ansatz erzielte laut Autor 100 % Genauigkeit auf Finanz-10-K-Dokumenten
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.