VoiceFlow v1.6.0: Lokale Meeting-Zusammenfassung auf 6-GB-GPU mit qwen3.5:0.8b

ToolsGroq Ollama Whisper Claude GPT Qwen Llama Cursor Vercel

Warum es zählt

Für AI-Builder zeigt der Praxistest, dass sub-500M-Modelle auf echten Gesprächsdaten strukturell versagen, während qwen3.5:0.8b mit 16K-Kontext-Fix die Untergrenze für kohärente Meeting-Summarisierung auf Low-VRAM-Hardware bildet.

— Lumeric Redaktion

Reddit-Nutzer /u/raww2222 veröffentlicht VoiceFlow v1.6.0, ein Open-Source-Tool (MIT) für lokale Spracheingabe und Meeting-Aufzeichnung unter Windows und Linux. Die App nutzt faster-whisper für lokale Transkription und leitet optionale Zusammenfassungen an konfigurierbare Endpunkte weiter – Ollama, llama.cpp, Groq oder OpenAI. Kernaussage des Posts ist ein Praxisbenchmark auf einer RTX 3060 Laptop GPU mit 6 GB VRAM: qwen3.5:0.8b (873M Parameter, Q8_0) liefert nach einem Modelfile-Fix (num_ctx 16384) eine strukturierte 1562-Zeichen-Zusammenfassung in 57 Sekunden bei 2,2 GB VRAM-Verbrauch. Ohne den Fix frisst der Thinking-Modus das Standardkontextfenster (4096 Tokens) auf, bevor nutzbare Ausgabe entsteht. Granite 4.0 350M ist zwar dramatisch schneller (0,6–2,8 Sekunden), halluziniert jedoch massiv: Auf einem Transkript über Anthropics Akquisition von Bun erfindet es „Anthropics Übernahme durch Anthropic" und Binance als Diskussionsthema; ein anderes Meeting wird als Star-Trek-Bordbuch ausgegeben. Der Autor setzt qwen3.5:0.8b damit als funktionierende Untergrenze fest und sucht in der Community nach Lösungen für Long-Context-Summarisierung (30K–60K Tokens) auf 6–8 GB VRAM.

Quelle lesenreddit.com

Meeting-Summarisierung (4-min-Transkript, ~2900 Zeichen, RTX 3060 6GB) · Spitzenwert

1.7%

Granite 4.0 350M

Open Source Inferenz Infra Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

VoiceFlow v1.6.0: Lokale Meeting-Zusammenfassung auf 6-GB-GPU mit qwen3.5:0.8b

ToolsGroq Ollama Whisper Claude GPT Qwen Llama Cursor Vercel

CompaniesOpenAI Anthropic Groq Vercel

Warum es zählt

— Lumeric Redaktion

Meeting-Summarisierung (4-min-Transkript, ~2900 Zeichen, RTX 3060 6GB) · Spitzenwert

1.7%

Granite 4.0 350M

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

VoiceFlow v1.6.0: Lokale Meeting-Zusammenfassung auf 6-GB-GPU mit qwen3.5:0.8b

Frag die KI zum Artikel

Verwandte Beiträge

VoiceFlow v1.6.0: Lokale Meeting-Zusammenfassung auf 6-GB-GPU mit qwen3.5:0.8b

Frag die KI zum Artikel

Verwandte Beiträge