VoiceFlow v1.6.0: Lokale Meeting-Zusammenfassung auf 6-GB-GPU mit qwen3.5:0.8b
Reddit-Nutzer /u/raww2222 veröffentlicht VoiceFlow v1.6.0, ein Open-Source-Tool (MIT) für lokale Spracheingabe und Meeting-Aufzeichnung unter Windows und Linux. Die App nutzt faster-whisper für lokale Transkription und leitet optionale Zusammenfassungen an konfigurierbare Endpunkte weiter – Ollama, llama.cpp, Groq oder OpenAI. Kernaussage des Posts ist ein Praxisbenchmark auf einer RTX 3060 Laptop GPU mit 6 GB VRAM: qwen3.5:0.8b (873M Parameter, Q8_0) liefert nach einem Modelfile-Fix (num_ctx 16384) eine strukturierte 1562-Zeichen-Zusammenfassung in 57 Sekunden bei 2,2 GB VRAM-Verbrauch. Ohne den Fix frisst der Thinking-Modus das Standardkontextfenster (4096 Tokens) auf, bevor nutzbare Ausgabe entsteht. Granite 4.0 350M ist zwar dramatisch schneller (0,6–2,8 Sekunden), halluziniert jedoch massiv: Auf einem Transkript über Anthropics Akquisition von Bun erfindet es „Anthropics Übernahme durch Anthropic" und Binance als Diskussionsthema; ein anderes Meeting wird als Star-Trek-Bordbuch ausgegeben. Der Autor setzt qwen3.5:0.8b damit als funktionierende Untergrenze fest und sucht in der Community nach Lösungen für Long-Context-Summarisierung (30K–60K Tokens) auf 6–8 GB VRAM.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
VoiceFlow v1.6.0: Lokale Meeting-Zusammenfassung auf 6-GB-GPU mit qwen3.5:0.8b
Reddit-Nutzer /u/raww2222 veröffentlicht VoiceFlow v1.6.0, ein Open-Source-Tool (MIT) für lokale Spracheingabe und Meeting-Aufzeichnung unter Windows und Linux. Die App nutzt faster-whisper für lokale Transkription und leitet optionale Zusammenfassungen an konfigurierbare Endpunkte weiter – Ollama, llama.cpp, Groq oder OpenAI. Kernaussage des Posts ist ein Praxisbenchmark auf einer RTX 3060 Laptop GPU mit 6 GB VRAM: qwen3.5:0.8b (873M Parameter, Q8_0) liefert nach einem Modelfile-Fix (num_ctx 16384) eine strukturierte 1562-Zeichen-Zusammenfassung in 57 Sekunden bei 2,2 GB VRAM-Verbrauch. Ohne den Fix frisst der Thinking-Modus das Standardkontextfenster (4096 Tokens) auf, bevor nutzbare Ausgabe entsteht. Granite 4.0 350M ist zwar dramatisch schneller (0,6–2,8 Sekunden), halluziniert jedoch massiv: Auf einem Transkript über Anthropics Akquisition von Bun erfindet es „Anthropics Übernahme durch Anthropic" und Binance als Diskussionsthema; ein anderes Meeting wird als Star-Trek-Bordbuch ausgegeben. Der Autor setzt qwen3.5:0.8b damit als funktionierende Untergrenze fest und sucht in der Community nach Lösungen für Long-Context-Summarisierung (30K–60K Tokens) auf 6–8 GB VRAM.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.