Ornith 35B FP8 E4M3 mit MTP-Drafter: 18% schnellere lokale Inferenz

Warum es zählt

Das MTP-Grafting-Skript und ein vLLM-Hochleistungs-Inferenz-Container sind öffentlich verfügbar. AI-Builder mit Hopper/Ada-Hardware können damit Ornith 35B signifikant schneller betreiben – auch auf Unified-Memory-Systemen wie GB10 via NVFP4.

— Lumeric Redaktion

Quelle lesenreddit.com

18% schneller

Speedup durch MTP gegenüber Baseline

Inferenz Infra Open Source Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Ornith 35B FP8 E4M3 mit MTP-Drafter: 18% schnellere lokale Inferenz

Warum es zählt

— Lumeric Redaktion

18% schneller

Speedup durch MTP gegenüber Baseline

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Ornith 35B FP8 E4M3 mit MTP-Drafter: 18% schnellere lokale Inferenz

Frag die KI zum Artikel

Verwandte Beiträge

Ornith 35B FP8 E4M3 mit MTP-Drafter: 18% schnellere lokale Inferenz

Frag die KI zum Artikel

Verwandte Beiträge