
Agentic AI: Fünf Strategien zur Token-Kostenreduktion in Produktion
Der Artikel von Ida Silfverskiöld auf Towards Data Science analysiert, warum Agentic-AI-Systeme in Produktion schnell teuer werden, und stellt vier Designprinzipien zur Kostensenkung vor. Als Ausgangspunkt dienen reale Zahlen: Das geleakte Claude-System-Prompt umfasste rund 24.000 Tokens, das von GPT-5 ca. 15.000. In Claude Code soll ein einfaches „Hi" in einem leeren Ordner bereits ~31.000 Input-Tokens verursacht haben. 100 tägliche Anfragen mit 166K Input-Tokens kosten auf Gemini 3.1 Pro rund 996 USD/Monat, auf Claude Opus 4.6 bis zu 2.490 USD. Die vier behandelten Prinzipien sind: (1) Token-Wiederverwendung durch K/V-Prefix-Caching und Semantic Caching, (2) Minimierung stabiler Token-Blöcke wie Systempromt und Tool-Definitionen durch Lazy-Loading, (3) Model Routing und Kaskadierung zu kleineren Modellen, sowie (4) Context-Bereinigung und Compaction. Für selbst-gehostete Modelle wird vLLM als Serving-Framework mit dem Flag --enable-prefix-caching beschrieben. Der Artikel enthält interaktive Kostenkalkulatoren und thematisiert explizit die Trade-offs jeder Methode.
- Ohne Caching: 100 tägliche Agent-Calls à 166K Input-Tokens = ~996 USD/Monat (Gemini 3.1 Pro) bzw. ~2.490 USD (Claude Opus 4.6)
- Geleakte System-Prompts: Claude ~24.000 Tokens, GPT-5 ~15.000 Tokens; Claude Code verbraucht ~31.000 Tokens für einen leeren Ordner
- K/V-Prefix-Caching in vLLM aktivierbar via Flag --enable-prefix-caching; erfordert stabile Token-Reihenfolge (keine Timestamps, keine resortierten Tool-Definitionen)
- Semantic Caching speichert Antworten auf semantisch ähnliche Anfragen, birgt jedoch Risiken bei kontextsensitiven Prompts
- Lazy-Loading von Tool-Definitionen und MCP-Servern kann Tausende von Tokens pro Turn einsparen, da Tool-Definitionen allein in die Zehntausende gehen können
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co3w
Agentic AI Systems als Marginal-Token-Allocator statt Text-Generatoren
- FORSCHUNGarxiv.org2w
AgentSlimming: Plug-and-Play-Komprimierung für Multi-Agent-Workflows spart 78,9 % Token
- FORSCHUNGarxiv.org0mo
Agora-Opt: Multi-Agenten-Framework mit dezentraler Debatte für Optimierungsmodellierung
- FORSCHUNGarxiv.org1w
RecMem reduziert Token-Kosten für LLM-Agenten-Memory um bis zu 87%

Agentic AI: Fünf Strategien zur Token-Kostenreduktion in Produktion
Der Artikel von Ida Silfverskiöld auf Towards Data Science analysiert, warum Agentic-AI-Systeme in Produktion schnell teuer werden, und stellt vier Designprinzipien zur Kostensenkung vor. Als Ausgangspunkt dienen reale Zahlen: Das geleakte Claude-System-Prompt umfasste rund 24.000 Tokens, das von GPT-5 ca. 15.000. In Claude Code soll ein einfaches „Hi" in einem leeren Ordner bereits ~31.000 Input-Tokens verursacht haben. 100 tägliche Anfragen mit 166K Input-Tokens kosten auf Gemini 3.1 Pro rund 996 USD/Monat, auf Claude Opus 4.6 bis zu 2.490 USD. Die vier behandelten Prinzipien sind: (1) Token-Wiederverwendung durch K/V-Prefix-Caching und Semantic Caching, (2) Minimierung stabiler Token-Blöcke wie Systempromt und Tool-Definitionen durch Lazy-Loading, (3) Model Routing und Kaskadierung zu kleineren Modellen, sowie (4) Context-Bereinigung und Compaction. Für selbst-gehostete Modelle wird vLLM als Serving-Framework mit dem Flag --enable-prefix-caching beschrieben. Der Artikel enthält interaktive Kostenkalkulatoren und thematisiert explizit die Trade-offs jeder Methode.
- Ohne Caching: 100 tägliche Agent-Calls à 166K Input-Tokens = ~996 USD/Monat (Gemini 3.1 Pro) bzw. ~2.490 USD (Claude Opus 4.6)
- Geleakte System-Prompts: Claude ~24.000 Tokens, GPT-5 ~15.000 Tokens; Claude Code verbraucht ~31.000 Tokens für einen leeren Ordner
- K/V-Prefix-Caching in vLLM aktivierbar via Flag --enable-prefix-caching; erfordert stabile Token-Reihenfolge (keine Timestamps, keine resortierten Tool-Definitionen)
- Semantic Caching speichert Antworten auf semantisch ähnliche Anfragen, birgt jedoch Risiken bei kontextsensitiven Prompts
- Lazy-Loading von Tool-Definitionen und MCP-Servern kann Tausende von Tokens pro Turn einsparen, da Tool-Definitionen allein in die Zehntausende gehen können
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co3w
Agentic AI Systems als Marginal-Token-Allocator statt Text-Generatoren
- FORSCHUNGarxiv.org2w
AgentSlimming: Plug-and-Play-Komprimierung für Multi-Agent-Workflows spart 78,9 % Token
- FORSCHUNGarxiv.org0mo
Agora-Opt: Multi-Agenten-Framework mit dezentraler Debatte für Optimierungsmodellierung
- FORSCHUNGarxiv.org1w
RecMem reduziert Token-Kosten für LLM-Agenten-Memory um bis zu 87%