Meeting-Copilot
Live-Transkription + Claude-Flüster-Panel
Gebaut von Rogue AI · Desktop-Meeting-Assistent · Electron, Windows-first
Erste funktionierende WASAPI-Aufnahme: Anfang 2026 in einem separaten Electron-Repo. Deepgram-Streaming-STT und Claude-Agent-SDK-Flüster-Layer wurden in Q1 2026 verdrahtet. Seitdem live in Kundengesprächen im Einsatz.
Das Problem
Notizen während Kundengesprächen killen Präsenz. Cloud-Meeting-Bots sind unheimlich, zeichnen alles auf und schicken deine Gespräche an unbekannte Dritte. Die meisten „KI-Meeting-Assistenten“ sind bessere Transkriptoren und spucken erst nach dem Meeting eine Zusammenfassung aus — zu spät, um nützlich zu sein.
Was ich gebaut habe
Ein Desktop-Copilot, der einem laufenden Gespräch zuhört (Systemaudio + Mikrofon), live transkribiert und in einem Seitenpanel kontext-bewusst flüstert: Talking Points, Rückfragen, Einwandbehandlung und eine rollierende Zusammenfassung. Läuft lokal; nur der STT-Stream verlässt den Rechner.
Architektur
Tech-Stack
Was zuerst gebrochen ist
- ▸
WASAPI-Loopback auf Windows ist dokumentiert; die Geräte-Enumeration-Edge-Cases nicht. Einen Tag mit einem Laptop verloren, dessen Default-Render-Gerät zwischen Sessions seinen Namen änderte — Fix: Per Geräte-ID binden, nicht per Name.
- ▸
Flüster-Frequenz macht oder bricht das Produkt. Zu aggressiv und das Seitenpanel wird Lärm; zu still und du vergisst es. Gelandet bei 8-Sekunden-Stille-Trigger plus End-of-Thought-Heuristik, pro Nutzer einstellbar.
- ▸
STT-Diarisierung versagt, wenn Host und Gast ein einziges Laptop-Mikro ohne Headset teilen. Sprecher-Tag-UI umgeschrieben, sodass das Versagen explizit angezeigt wird ('ein Sprecher — Diarisierung nicht verfügbar'), statt Falsches zu beschriften.
Ergebnis
Echtzeit-Meeting-Coach, der auf dem Rechner des Operators läuft. Transkript und Zusammenfassung bleiben lokal; nur der STT-Stream geht zu Deepgram. Im Einsatz bei Kundengesprächen, internen Reviews und Übungseinheiten.
Ehrliche Grenzen
Heute Windows-only; macOS-Pfad ist machbar, aber ~2 Wochen Arbeit, die ich nicht gemacht habe. Deepgram ist eine Cloud-Abhängigkeit für den Audio-Stream — nicht komplett lokal, anders als ein schneller Blick auf das Produkt suggeriert. Lange Meetings (>90 Minuten) treffen einen Transkript-Puffer-Trim, an dem ich noch tune, damit der Agent-Kontext kohärent bleibt.
