wird geladen

Feed
Digest
Lounge
Stash
Profil

Glossar

★ Glossar

AI-Glossar

Die wichtigsten Begriffe rund um AI, Modelle, Agents und Infrastruktur — kurz und präzise auf Deutsch erklärt. 81 Einträge in 10 Kategorien.

Trending diese Woche

LLM⚡neu · 375×
Inference⚡neu · 222×
Benchmark⚡neu · 201×
Prompt⚡neu · 144×
Fine-Tuning⚡neu · 101×

Modell-Architektur 11
Training & Inferenz 10
Agents & Reasoning 14
RAG & Memory 5
Multimodal 5
Voice & Audio 4
Robotics 4
Evaluation 6
Safety & Alignment 8
Infrastruktur 14

Modell-Architektur

Attention⚡neu · 15×
Mechanismus, mit dem ein Modell Token-Beziehungen im Input gewichtet — bestimmt, welche Teile des Kontexts für die Vorhersage des nächsten Tokens wichtig sind. Kern-Operation im Transformer.
Context Window⚡neu · 18×
Maximale Token-Anzahl, die ein LLM in einem Request verarbeiten kann (Input + Output). 2026-Stand: GPT-5 ~256k, Claude Sonnet 4.6 ~1M, Gemini 2.5 ~2M Tokens.
Embedding⚡neu · 49×
Vektor-Repräsentation eines Texts/Bildes/Audios in einem hochdimensionalen Raum (typisch 768-3072 Dimensionen). Semantisch ähnliche Inhalte → räumlich nahe Vektoren. Basis für Vector-DBs und Semantic-Search.
Emergence

Training & Inferenz

Distillation⚡neu · 34×
Trainiert ein kleineres „Student"-Modell, um die Outputs eines grösseren „Teacher"-Modells zu imitieren. Resultat: 80% der Qualität bei 10% der Inferenz-Kosten. DeepSeek-R1 distilliert in viele Open-Source-Varianten.
Fine-Tuning⚡neu · 101×
Weiter-Training eines Pretrained-Modells auf domänenspezifischem Datenset (Medizin, Recht, Code). Macht Modelle für Nischen brauchbar, ohne von Null zu trainieren. LoRA oder QLoRA reduzieren Memory-Bedarf.
Inference⚡neu · 222×
Phase, in der ein trainiertes Modell tatsächlich Vorhersagen produziert (Antwort generieren, Bild klassifizieren). Im Gegensatz zum Training. Ökonomisch wichtigster Kosten-Block bei Live-Anwendungen.

Agents & Reasoning

Agent⚡neu · 15×
LLM-System, das eigenständig Aktionen plant + ausführt (Tool-Calls, Web-Search, Code-Exec). Gegensatz zum Single-Turn-Chatbot. Beispiele: Devin, Manus, Replit Agent.
Chain-of-Thought (CoT)⚡neu · 22×
Prompting-Technik: das Modell wird angewiesen, Schritt für Schritt zu denken („Think step by step"), bevor es die finale Antwort gibt. Verbessert Math/Logic massiv. Reasoning-Models machen CoT intern automatisch.
Chatbot⚡neu · 13×
Conversational-Interface auf Basis eines LLM. Heutiges ChatGPT-Paradigma. Aber: nicht jede LLM-Anwendung ist ein Chatbot — Agents, Co-Pilots, Background-Jobs sind eigene Patterns.
Co-Pilot

RAG & Memory

Context Caching⚡neu · 1×
API-Feature (Anthropic, Google), das einmal hochgeladene grosse Kontexte (PDFs, Dokumentation) für Folge-Requests cached. Reduziert Input-Token-Kosten ~80% bei wiederholten Queries auf gleichen Kontext.
HNSW
Hierarchical Navigable Small World — Index-Algorithmus für Approximate-Nearest-Neighbor-Suche in Vector-DBs. De-facto-Standard 2026: balanciert Query-Latency vs. Index-Size besser als IVF oder Brute-Force.
RAG — Retrieval-Augmented Generation⚡neu · 26×
Architektur: User-Frage → Vector-Suche in Wissensdatenbank → Top-K Treffer als Kontext an LLM → LLM antwortet basierend auf diesem Kontext. Standard für domänenspezifische Bots ohne Fine-Tuning.
Semantic Search

Multimodal

CLIP⚡neu · 9×
Contrastive Language-Image Pre-training — OpenAI-Modell (2021), das Bild und Text in einen gemeinsamen Embedding-Raum mappt. Kern-Komponente vieler Image-Generation- und Search-Pipelines.
Computer-Use⚡neu · 4×
LLM-Fähigkeit, einen Bildschirm zu „sehen" + Maus/Keyboard zu steuern. Anthropic Computer Use (2024), OpenAI Operator. Vorstufe zu universellen Desktop-Agents.
Diffusion Model⚡neu · 15×
Generativer Modell-Typ, der aus Rauschen iterativ Bilder/Videos rekonstruiert. Basis für Stable Diffusion, FLUX, Sora, Imagen. Trade-off: höhere Qualität als GANs, dafür langsamere Inferenz.
Multimodal

Voice & Audio

ASR / STT⚡neu · 15×
Automatic Speech Recognition / Speech-to-Text — Audio → Transkription. Whisper (OpenAI) ist der Open-Source-Standard. Realtime-Latency wichtig für Voice-Agents.
TTS — Text-to-Speech⚡neu · 7×
Wandelt Text in synthetische Sprache um. 2026-Stand: kaum von menschlicher Sprache unterscheidbar (ElevenLabs, Cartesia). Lumeric-Briefing nutzt ElevenLabs für die tägliche Audio-Version.
Voice Cloning⚡neu · 1×
Aus einer kurzen Audio-Probe (~30s) wird eine synthetische Stimme erzeugt, die der Original-Stimme ähnelt. Ethik-Hot-Spot. ElevenLabs, Resemble. Lumeric verzichtet bewusst — eine konsistente Brand-Stimme statt User-Cloning.
Whisper

Robotics

Embodied AI⚡neu · 3×
KI in physischen Systemen (Roboter, autonomous vehicles), die mit der echten Welt interagieren. Anders als Web-Agents: Physik, Sensoren, Latenz, Sicherheit. Aktive Player: Figure, 1X, Tesla Optimus.
Sim-to-Real⚡neu · 7×
Trainings-Strategie: Roboter lernen Skills in der Simulation (Millionen Trial-and-Error-Iterationen), dann Transfer in die echte Welt. Spart Hardware-Verschleiss + Zeit.
VLA — Vision-Language-Action⚡neu · 10×
Modell-Klasse, die visuellen Input + Sprach-Anweisung in physische Roboter-Aktionen übersetzt. Foundation-Models für Robotics: Pi-Zero (Physical Intelligence), Helix (Figure).
World Model

Evaluation

ARC-AGI⚡neu · 1×
Abstract Reasoning Corpus von François Chollet. Visuelle Pattern-Tasks, die Menschen mühelos lösen, LLMs aber struggeln lassen. Galt 2024 als „letzter ungelöster" AI-Benchmark — Frontier-Modelle nähern sich 2026 menschlichem Niveau.
Benchmark⚡neu · 201×
Standardisierter Test, gegen den Modelle vermessen werden. Beispiele: MMLU (Wissen), HumanEval (Code), GSM8K (Math), AIME (Olympiade-Math), ARC-AGI (abstraktes Reasoning).
Eval-Harness
Standardisiertes Test-Framework, in dem ein Modell gegen viele Benchmarks gleichzeitig läuft. Bekannt: lm-evaluation-harness von EleutherAI. Open-Source-Modelle werden so vergleichbar gemacht.
Hallucination

Safety & Alignment

AGI⚡neu · 4×
Artificial General Intelligence — KI, die jeden kognitiven Task auf menschlichem Niveau lösen kann. Definition kontrovers; OpenAI-Charta nennt es als Mission. Zeitpunkt schwer prognostizierbar — Schätzungen 2026 reichen von 3 bis 30 Jahre.
Alignment⚡neu · 86×
Forschungsfeld: wie kriegt man fortgeschrittene KI dazu, Ziele und Werte mit Menschen abzustimmen. Anthropic + DeepMind investieren viel; OpenAI hat 2024 das Superalignment-Team aufgelöst.
ASI⚡neu · 3×
Artificial Superintelligence — hypothetische KI, die Menschen in jeder kognitiven Disziplin substantiell übertrifft. Spätere Stufe nach AGI. Zentral für Safety-Diskussion (Alignment-Problem).
Constitutional AI

Infrastruktur

Apache 2.0 / MIT⚡neu · 4×
Permissive Open-Source-Lizenzen. Erlauben kommerzielle Nutzung, Modifikation, Weitergabe ohne Restriktionen. Kontrast: Llama-Lizenz hat Beschränkungen für Konkurrenten >700M Nutzer.
API-Pricing⚡neu · 3×
LLM-API-Kosten pro 1M Input-/Output-Tokens. Frontier-Models 2026: Claude Opus ~$15/$75, GPT-5 ~$10/$30, Gemini Pro ~$5/$15. Open-Source-Hosted via Together/Fireworks 5-20× günstiger.
Cold Start
Verzögerung beim ersten Request nach Idle — Container muss hochgefahren, Modell-Gewichte ins GPU-Memory geladen werden. Bei 70B-Modellen 30-90s. Mitigated durch Warm-Pools.
GPU⚡neu · 82×

Feed Digest Lounge Stash Profil

⚡neu · 9×

Phänomen, dass bestimmte Fähigkeiten (Reasoning, In-Context-Learning) erst ab einer kritischen Modellgrösse spontan auftauchen. Treiber des „grösser ist besser"-Paradigmas — wird 2024+ zunehmend hinterfragt.

Foundation Model⚡neu · 47×

Grosses, generalistisch trainiertes Basismodell (LLM, Bild, Multimodal), das via Fine-Tuning oder Prompting für viele Downstream-Tasks adaptierbar ist. Begriff geprägt 2021 von Stanford CRFM.

LLM⚡neu · 375×

Large Language Model — neuronales Netz mit Milliarden Parametern, trainiert auf Text. Sagt das nächste Token in einer Sequenz vorher; daraus emergiert Sprachverständnis und Reasoning.

Mixture of Experts (MoE)⚡neu · 15×

Architektur, bei der pro Token nur ein Subset der Modell-Parameter aktiv ist (z.B. 2 von 64 „Experten"). Halbiert Inferenz-Compute bei gleicher Total-Parameter-Zahl. Mistral Mixtral, DeepSeek-V3, Qwen3 nutzen MoE.

Parameter⚡neu · 6×

Trainierbare Gewichte im Modell. Modellgrösse („14B", „70B", „405B") = Anzahl Parameter in Milliarden. Mehr Parameter = mehr Kapazität, aber höhere Inferenz-Kosten.

Reasoning Model⚡neu · 2×

LLM, das bewusst längere interne Gedankenketten („Chain-of-Thought") produziert, bevor es antwortet. Tauscht Latency gegen Genauigkeit bei Math/Code/Logic. Beispiele: o1, o3, DeepSeek-R1.

Token⚡neu · 95×

Atomare Einheit eines LLM — meist Sub-Wort (~3-4 Zeichen). Pricing der API-Provider basiert auf Input- + Output-Tokens. Faustregel: 1000 Tokens ≈ 750 deutsche Wörter.

Transformer⚡neu · 84×

Architektur mit Self-Attention statt Rekurrenz. Seit „Attention is All You Need" (2017) Standard für LLMs, Vision-Transformer, Audio-Modelle.

Latency

⚡neu · 71×

Zeit zwischen Anfrage und erstem Output-Token (Time-to-First-Token, TTFT) sowie zwischen Tokens (Tokens-per-Second). Latenz-kritisch sind Voice-Agents, Coding-Assistenten. Groq + Cerebras spezialisiert auf <100ms TTFT.

Pre-Training⚡neu · 42×

Erste Trainings-Phase: das Modell lernt Muster aus Trillionen Tokens unstrukturierten Texts (Web, Bücher, Code). Wochen bis Monate auf tausenden GPUs/TPUs. Teuerster Schritt im LLM-Lebenszyklus.

Quantization⚡neu · 44×

Reduziert die Bit-Breite der Modell-Gewichte (FP16 → INT8/INT4 → FP4) — verkleinert das Modell ~2-4× bei minimalem Quality-Verlust. Macht 70B-Modelle auf Consumer-GPUs lauffähig.

RLAIF⚡neu · 1×

Reinforcement Learning from AI Feedback — Variante von RLHF, bei der ein anderes LLM die Bewertungen liefert statt Menschen. Skaliert günstiger, Anthropic-zentriertes Konzept (Constitutional AI).

RLHF⚡neu · 4×

Reinforcement Learning from Human Feedback — Pretrained-Modell wird mit menschlichen Bewertungen („Antwort A oder B besser?") gepolisht. Macht aus rohem GPT einen ChatGPT. Standardmethode seit 2022.

Scaling Laws⚡neu · 4×

Empirische Beobachtung: LLM-Quality skaliert vorhersagbar mit Compute, Daten + Parametern. Chinchilla-Paper (2022) bestimmte das Optimum. 2024+ debatiert: stehen wir vor einer „Scaling-Wall"?

Throughput⚡neu · 43×

Tokens-pro-Sekunde, die ein Inference-Endpoint unter Last produziert. Wichtig für Batch-Workloads (Embeddings, Document-Processing). Trade-off mit Latency: Batch-Mode = höherer Throughput, aber höhere TTFT pro Request.

⚡neu · 9×

AI-Assistent, der einen menschlichen User in Echtzeit unterstützt — vorschlägt, autovervollständigt, bei Bedarf eingreift. GitHub Copilot war der Namensgeber. Cursor + Windsurf sind Coding-Co-Pilots.

Function-Calling⚡neu · 2×

API-Feature, mit dem ein LLM strukturiertes JSON zurückgibt, das eine konkrete Funktion + Parameter beschreibt. Standardisiert seit OpenAI 2023, heute überall (Claude, Gemini, OSS-Models).

Long-Horizon Tasks⚡neu · 27×

Aufgaben mit hunderten/tausenden Schritten über Stunden hinweg (kompletter Software-Build, mehrtägige Recherche). Schwachpunkt heutiger Agents — Fehler-Akkumulation + Context-Verlust.

MCP — Model Context Protocol⚡neu · 11×

Anthropic-Standard (2024) für die Anbindung von LLMs an externe Tools/Datenquellen. Ein universelles Protokoll, das Models + Tools voneinander entkoppelt — ähnlich USB für Hardware.

Prompt⚡neu · 144×

Eingabe an ein LLM — Text-Instruktion + optional Beispiele/Kontext. Prompt-Engineering = die Kunst, Prompts so zu formulieren, dass das gewünschte Output zuverlässig produziert wird.

Agent-Pattern: das Modell wechselt zwischen Reasoning (denken) und Acting (Tool-Call) in Iteration, bis Task gelöst. Vorlage für die meisten heutigen Agent-Frameworks. Paper: ReAct (2022).

System-Prompt⚡neu · 5×

Spezielle Prompt-Rolle, die das Modellverhalten für die gesamte Konversation festlegt („Du bist ein Recherche-Assistent…"). Wird vor jedem User-Turn erneut mitgeschickt.

Temperature⚡neu · 17×

API-Parameter, der die Kreativität/Zufälligkeit der LLM-Antwort steuert. 0.0 = deterministisch (gleicher Prompt → gleiches Output), 1.0+ = kreativ/vielfältig. Standard meist 0.7.

Tool-Use⚡neu · 19×

Fähigkeit eines LLM, externe Funktionen aufzurufen (Wetter-API, DB-Query, Code-Ausführung) statt nur Text zu generieren. Erweitert das Modell um deterministisches Wissen + Action.

Top-p / Top-k⚡neu · 12×

Sampling-Parameter, die LLM-Output-Diversität steuern. Top-p (Nucleus Sampling) wählt aus den wahrscheinlichsten Tokens, deren kumulative Wahrscheinlichkeit p übersteigt. Trade-off mit Temperature.

Zero-Shot⚡neu · 47×

Modell löst eine Aufgabe ohne Beispiele im Prompt — nur basierend auf der Beschreibung. Few-Shot = mit 1-5 Beispielen, deutlich besser bei seltenen Tasks.

⚡

neu · 2×

Suche nach Bedeutung statt Wortübereinstimmung. Query → Embedding → ANN-Lookup gegen Document-Embeddings. Findet Treffer auch wenn keine Keyword überlappen.

Vector Database⚡neu · 1×

Spezialisierte DB für Embedding-Vektoren mit Approximate-Nearest-Neighbor-Suche (HNSW, IVF). Fundament für RAG, Semantic-Search, Recommendation. Beispiele: Pinecone, Weaviate, Qdrant, pgvector.

⚡neu · 87×

Modell, das mehrere Modalitäten gleichzeitig verarbeiten kann — Text + Bild + Audio + Video. GPT-5, Claude 3.5+, Gemini 2.5 sind multimodal. Ermöglicht Anwendungen wie Bild-Frage-Antwort, Video-Verständnis.

VLM — Vision Language Model⚡neu · 24×

Multimodal-Modell-Klasse mit Schwerpunkt Bild + Text. Beispiele: Llama 3.2 Vision, Qwen2-VL, InternVL. Anwendungen: OCR, Bildbeschreibung, UI-Verständnis für Computer-Use-Agents.

⚡neu · 5×

Open-Source-ASR-Modell von OpenAI (2022). Mehrsprachig, robust gegen Noise. De-facto-Standard für Audio-Transkription, läuft on-device via whisper.cpp.

⚡neu · 15×

Internes Modell, das die Dynamik einer Umgebung simuliert (was passiert wenn …). Wichtig für Planning + Robotics. World Labs (Fei-Fei Li, 2024) macht World-Models zum eigenen Foundation-Modell-Typ.

⚡

neu · 28×

Wenn ein LLM faktisch falsche Informationen mit hoher Sicherheit präsentiert. Inhärentes Verhalten von Sprachmodellen, die Wahrscheinlichkeiten optimieren, nicht Wahrheit. Mitigated via RAG, Tool-Use, kürzere Antworten.

HumanEval⚡neu · 9×

Code-Benchmark: 164 Python-Aufgaben mit Unit-Tests. Misst Pass@1-Rate (erste Antwort korrekt). Frontier-Models 2026 bei >95% — Saturation, daher Ablöse durch LiveCodeBench, SWE-Bench.

MMLU⚡neu · 6×

Massive Multitask Language Understanding — 57 Wissensgebiete (Mathe, Recht, Medizin, Geschichte). Lange der Standard-Benchmark für „Allgemeinwissen", inzwischen von Top-Models auf >90% saturated.

Anthropic-Methode (2022): das Modell wird per geschriebener Verfassung („nicht schädlich, hilfreich, ehrlich") trainiert, sich selbst zu kritisieren + verbessern. Fundament hinter Claude.

Evals⚡neu · 26×

Praktischer Begriff für die fortlaufenden Qualitäts-Tests einer LLM-Anwendung — automatische Checks, ob Modell-Output den Anforderungen entspricht. Tools: Braintrust, Phoenix, Promptfoo.

Jailbreak⚡neu · 6×

Technik, ein LLM zu übersteigen seine Sicherheits-Guidelines (z.B. „ignoriere bisherige Anweisungen"). Wettlauf zwischen Red-Teams und Modell-Anbietern.

Prompt Injection⚡neu · 5×

Sicherheitslücke: extern gefütterte Inhalte (Webseiten, Dokumente) enthalten versteckte Instruktionen, die das LLM ausführt — gefährlich bei agenten-basierten Systemen mit Tool-Zugriff.

Red-Teaming⚡neu · 5×

Strukturiertes Testen eines KI-Systems durch eine Adversarial-Group, die Schwachstellen sucht (Jailbreaks, Bias, Misbrauch). Pflicht-Praxis bei Frontier-Lab-Releases.

Graphics Processing Unit — parallele Recheneinheit, ursprünglich für Grafik, heute Standard für AI-Training + Inferenz. NVIDIA H100/H200/B200 dominiert; AMD MI300 als Alternative.

Inference Endpoint⚡neu · 2×

Deployed-Modell hinter einer HTTP-API. Provider: OpenAI, Anthropic, Google. Self-hosted via Together, Fireworks, Replicate für OSS-Modelle.

Inference Router

Service, der Requests dynamisch auf den günstigsten/schnellsten Provider routet (OpenRouter, Anyscale). Reduziert Vendor-Lock-In, hebt Verfügbarkeit.

LLMOps⚡neu · 1×

Operations-Disziplin für LLM-Anwendungen: Eval-Pipelines, Observability, Cost-Monitoring, Prompt-Versioning. Tools: LangSmith, Helicone, Langfuse, Braintrust.

On-Device AI⚡neu · 21×

LLM läuft lokal auf User-Hardware (Smartphone, Laptop) statt in der Cloud. Privacy + Latency-Vorteil, aber Modell-Grösse limitiert (<8B). Apple Intelligence, Ollama, LM Studio.

Open Source AI⚡neu · 9×

Strenge Definition: Trainings-Daten + Code + Gewichte + Lizenz erlauben kommerzielle Nutzung + Modifikation. Schwer zu erfüllen — viele „Open-Source"-Modelle sind technisch nur „Open-Weights".

Open Weights⚡neu · 7×

Modell-Gewichte sind frei downloadbar (z.B. Llama, Mistral, Qwen, DeepSeek), aber Trainings-Code/-Daten oft nicht vollständig offen. „Open weights" ≠ vollständig „open source".

Maximale Anzahl Requests/Tokens pro Zeitfenster, die ein API-Provider erlaubt. Tier-basiert (Free/Build/Scale). Wichtig für Production-Anwendungen — Backoff-Strategie + Provider-Fallback nötig.

GPU-Compute, das pro-Request-skaliert (statt 24/7 reserviert). Modal, Replicate, Banana. Cold-Start ein Problem (5-30s), aber Cost-Effizienz hoch bei sporadischen Workloads.

Streaming⚡neu · 14×

API-Modus: Tokens werden inkrementell zurückgegeben statt komplett am Ende. Reduziert wahrgenommene Latenz massiv (User sieht erste Wörter nach 200ms statt nach 5s). Server-Sent-Events oder Websockets.

TPU⚡neu · 2×

Tensor Processing Unit — Googles ASIC für Machine-Learning. Kostengünstiger als NVIDIA-GPUs für Google-interne Workloads. TPU v5p, Trillium TPU.