DeepSeek V4: 1M-Kontext-Fenster im Praxistest mit echten Codebases

Warum es zählt

Wer DeepSeek V4 produktiv für Code-Analyse einsetzt, sollte den Kontext auf 150–250k Tokens begrenzen – darüber entstehen ungenaue Zeilenangaben, architekturelle Zusammenfassungen statt Implementierungsdetails und halluzinierte Utility-Funktionen, die einen Validierungs-Layer erfordern.

— Lumeric Redaktion

Der Reddit-Nutzer /u/TangeloOk9486 hat DeepSeek V4s behauptetes 1-Million-Token-Kontext-Fenster anhand von drei echten Produktions-Codebases getestet: einem Microservice (45k), einem Monorepo-Backend (180k) und einer Full-Stack-Anwendung (520k). Aufgaben umfassten Dependency-Tracing, dateiübergreifende Refactorings und Bug-Isolation. Bis 150k Tokens arbeitet das Modell zuverlässig – bei 45k werden Funktionsaufrufe über 8 Dateien korrekt verfolgt, bei 180k zeigen 14-Datei-Refactorings konsistentes Architekturverständnis. Ab 300k nimmt die Präzision ab: Statt der exakten Zeilennummer 247 liefert das Modell „around line 230"; bei 520k weichen Antworten auf architekturelle Zusammenfassungen aus. Die Time-to-First-Token liegt auf dem DeepInfra-FP4-Endpunkt bei ca. 1,19 Sekunden, im Max-Reasoning-Mode steigt die Wartezeit auf rund 120 Sekunden. Laut Provider-Benchmarks (aa-omniscience) produziert V4 bei unbekannten Antwort-Aufgaben selbstsicher halluzinierte Inhalte wie nicht existente Utility-Funktionen oder Phantom-Dependencies – ein klares Argument für einen vorgelagerten Validierungs-Layer in produktionskritischen Umgebungen.

Was wir noch wissen

45k-Codebase: Funktionsaufrufe über 8 Dateien werden korrekt rekonstruiert
180k-Codebase: 14-Datei-Refactoring ohne Widersprüche oder Kontext-Verlust
Ab 300k: ungenaue Zeilenangaben, ab 520k nur noch architekturelle Zusammenfassungen
Time-to-First-Token: ~1,19s (DeepInfra FP4); Max-Reasoning-Mode: ~120s bis erste sichtbare Ausgabe
aa-omniscience-Benchmark: 94% Halluzinierungsrate bei unbekannten Antwort-Aufgaben

Quelle lesenreddit.com

Foundation Modelle Evals Benchmarks Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek V4: 1M-Kontext-Fenster im Praxistest mit echten Codebases

ToolsDeepSeek

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

45k-Codebase: Funktionsaufrufe über 8 Dateien werden korrekt rekonstruiert
180k-Codebase: 14-Datei-Refactoring ohne Widersprüche oder Kontext-Verlust
Ab 300k: ungenaue Zeilenangaben, ab 520k nur noch architekturelle Zusammenfassungen
Time-to-First-Token: ~1,19s (DeepInfra FP4); Max-Reasoning-Mode: ~120s bis erste sichtbare Ausgabe
aa-omniscience-Benchmark: 94% Halluzinierungsrate bei unbekannten Antwort-Aufgaben

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek V4: 1M-Kontext-Fenster im Praxistest mit echten Codebases

Frag die KI zum Artikel

Verwandte Beiträge

DeepSeek V4: 1M-Kontext-Fenster im Praxistest mit echten Codebases

Frag die KI zum Artikel

Verwandte Beiträge