Topic

Long Context

50 Beiträge der letzten 90 Tage zu Long Context — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

Top-Tools rund um Long Context

Qwen97×Llama63×GPT52×Hugging Face35×DeepSeek28×Claude27×

Top-Unternehmen in Long Context

Hugging Face35×Perplexity

Top-Tools rund um Long Context

Top-Unternehmen in Long Context

Archiv

Beiträge · 50

AgenticSTS schlägt Slay the Spire 2 mit strukturiertem Gedächtnis statt Chat-Log

Community diskutiert Context-Limits von Qwen 3.6 27B (Q8_0) bei 100k Token

Deterministisches Prompt-Pruning reduziert Token-Kosten ohne Abhängigkeiten zu brechen

RAG als Übergangslösung: Persistente neuronale Zustände als Nachfolger

JFrog Boost: CLI-Layer filtert Terminal-Rauschen aus Agent-Kontextfenstern

Hierarchisches Retrieval über Inhaltsverzeichnis statt Flat Top-k

GLM 5.2 auf 4× GB10 mit 100G-Switch: 330k Kontext, ~25 t/s Decode

RAG steigert Genauigkeit lokaler LLMs bei technischen Fragen deutlich

Produktionsreife RAG-Pipeline für PDFs: Parsing, TOC-Retrieval und typisierte Antworten

Proxy-Pointer RAG: Temporales Reasoning ohne semantische Vorverarbeitung

RAG-Antworten vor Auslieferung validieren: Spans, Zitate und Feedback-Loop

Anwalt sucht halluzinationsfreie lokale LLM-Pipeline für juristische Dokumente

llama-server KV-Cache-Bug: 117-Zeilen-Fix verhindert komplettes Prefill-Verwerfen

Baidus Unlimited OCR verarbeitet dutzende Dokumentseiten in einem Durchlauf

Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext

GLM 5.2 erkennt eigenständig hohes Kontext-Volumen und schlägt Komprimierung vor

Context-Length-Cliff: Praxisgrenze liegt weit unter dem Spec-Sheet

Prefill-Speed ist der RAG-Engpass – nicht Decode-Throughput

Long-Context vs. Short-Context Encoder: Wann lohnt das größere Fenster?

RAG-Retrieval: Warum Cosine-Similarity nicht die Basis sein sollte

RAG-Benchmark: Dokument-Struktur schlägt Modell-Tweaks bei Healthcare-Daten

llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090

Community-Diskussion: Lokale LLMs für großflächige Stadtlayout-Generierung

vLLM-Updates verdoppeln Kontextfenster: OOM-Bug durch Preallokation behoben

jarvis-code: Terminal-Agent übersteht 10.000 Turns mit 2.000-Token-Speicher

RAG-Optimierung: Strukturierung von Anfragen vor der Suche

Community-Diskussion: Sinnvolle RAG-Anwendungsfälle für Einzelentwickler

Community-Frage: Kontextfenster-Limits bei lokalem LLM mit 24 GB VRAM

DeepSeek-V4-Flash: KV-Cache-Quantisierung reduziert Compute-Buffer um Faktor 3

Community-Erfahrungen: Local AI als persönliches Second Brain

Context Engineering für RAG: Die vier Eingabe-Typen hinter jeder RAG-Antwort

Graph-freies Multi-Hop RAG schlägt GraphRAG auf drei Benchmarks

PageStorm: Erstes KI-Modell für kreatives Schreiben ganzer Bücher

Qwen-Team stellt HydraHead vor: Hybride Attention auf Head-Ebene

Huawei open-sourct OpenPangu-2.0-Flash: 92B Parameter, 6B aktiv

Microsoft entfernt FastContext-Modell von HuggingFace und GitHub

Retrieval-Hints statt Explorer-Agent: 43,8 % weniger Tokens auf SWE-QA

Microsoft Memora: Skalierbares Gedächtnissystem für KI-Agenten

nodex: Datenschutz-fokussierte Terminal-Notiz-App mit lokalem RAG via llama.cpp

Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090

Community-Diskussion: Prompt-Processing-Zeiten bei langen lokalen Coding-Sessions

Vector RAG reicht nicht: Kontextgraph-Layer für Multi-Agent-Memory vorgestellt

Entwickler baut nach 2,5 Jahren vollständig lokalen KI-Assistenten mit Memory-Layer

Community-Diskussion: Lokale LLMs für technische Softwaredokumentation

Anchor Detection für RAG: Parallele Detektoren mit abschließendem LLM-Call

GLM 5.2 ermöglicht über 100 t/s Prefill bei 100k+ Kontext auf Mac Studio

Mentales Modell für Enterprise RAG: Retrieval als Filterung statt Suche

Baidu präsentiert One-shot Long-horizon Parsing

RAG-Systeme: Einmal klären, Standard lernen, danach schweigen

Recall: Lokales Projekt-Gedächtnis für Claude Code ohne API-Kosten