
ByteDance: Frage-Antwort-Training schlägt Transkription bei langen Dokumenten
ByteDance Seed hat untersucht, wie sich verschiedene Trainingsstrategien auf die Fähigkeit großer multimodaler Sprachmodelle (LMMs) auswirken, lange, bildreiche Dokumente zu verstehen. Der zentrale Befund: Wenn ein Modell während des Trainings lernt, Fragen zu beantworten und relevante Passagen selbstständig zu lokalisieren, schneidet es deutlich besser ab, als wenn es lediglich Texte aus Dokumentseiten transkribiert. Besonders bemerkenswert ist, dass ein 7B-Modell mit diesem Ansatz auch deutlich größere Modelle übertreffen kann. Zudem generalisiert das so trainierte Modell auf Dokumente, die viermal länger sind als jene, auf denen es trainiert wurde – ein klares Zeichen für bessere strukturelle Generalisierung. Die Studie liefert damit konkrete Hinweise für die Gestaltung von Trainingsdaten und -zielen im Bereich Document Understanding.
- 7B-Modell übertrifft deutlich größere Modelle bei der Verarbeitung langer, bildreicher Dokumente.
- Generalisierung auf Dokumente, die viermal länger sind als die Trainingsbeispiele, gelingt mit QA-Ansatz zuverlässig.
- Training basiert auf eigenständiger Passagensuche statt Seitentranskription.
- Forschung stammt von ByteDance Seed.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co2w
MMProLong: Long-Context-Training für Vision-Language-Modelle bis 512K generalisiert
- FORSCHUNGarxiv.org1w
Multi-Pass Prompt Verification verbessert quantisierte LLaMA-3.1-Modelle in qualitativer Analyse
- BENCHMARKreddit.com4d
OCR schlägt Vision-LLMs bei langen PDF-Dokumenten im Benchmark
- FORSCHUNGarxiv.org1d
Doc-CoB: Visuelles Chain-of-Boxes-Reasoning verbessert Dokumentenverständnis

ByteDance: Frage-Antwort-Training schlägt Transkription bei langen Dokumenten
ByteDance Seed hat untersucht, wie sich verschiedene Trainingsstrategien auf die Fähigkeit großer multimodaler Sprachmodelle (LMMs) auswirken, lange, bildreiche Dokumente zu verstehen. Der zentrale Befund: Wenn ein Modell während des Trainings lernt, Fragen zu beantworten und relevante Passagen selbstständig zu lokalisieren, schneidet es deutlich besser ab, als wenn es lediglich Texte aus Dokumentseiten transkribiert. Besonders bemerkenswert ist, dass ein 7B-Modell mit diesem Ansatz auch deutlich größere Modelle übertreffen kann. Zudem generalisiert das so trainierte Modell auf Dokumente, die viermal länger sind als jene, auf denen es trainiert wurde – ein klares Zeichen für bessere strukturelle Generalisierung. Die Studie liefert damit konkrete Hinweise für die Gestaltung von Trainingsdaten und -zielen im Bereich Document Understanding.
- 7B-Modell übertrifft deutlich größere Modelle bei der Verarbeitung langer, bildreicher Dokumente.
- Generalisierung auf Dokumente, die viermal länger sind als die Trainingsbeispiele, gelingt mit QA-Ansatz zuverlässig.
- Training basiert auf eigenständiger Passagensuche statt Seitentranskription.
- Forschung stammt von ByteDance Seed.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co2w
MMProLong: Long-Context-Training für Vision-Language-Modelle bis 512K generalisiert
- FORSCHUNGarxiv.org1w
Multi-Pass Prompt Verification verbessert quantisierte LLaMA-3.1-Modelle in qualitativer Analyse
- BENCHMARKreddit.com4d
OCR schlägt Vision-LLMs bei langen PDF-Dokumenten im Benchmark
- FORSCHUNGarxiv.org1d
Doc-CoB: Visuelles Chain-of-Boxes-Reasoning verbessert Dokumentenverständnis