Meeting-Copilot

Live-Transkription + Claude-Flüster-Panel

Gebaut von Rogue AI · Desktop-Meeting-Assistent · Electron, Windows-first

Erste funktionierende WASAPI-Aufnahme: Anfang 2026 in einem separaten Electron-Repo. Deepgram-Streaming-STT und Claude-Agent-SDK-Flüster-Layer wurden in Q1 2026 verdrahtet. Seitdem live in Kundengesprächen im Einsatz.

Meeting-Copilot, Live-Transkription + Claude-Flüster-Panel

Das Problem

Notizen während Kundengesprächen killen Präsenz. Cloud-Meeting-Bots sind unheimlich, zeichnen alles auf und schicken deine Gespräche an unbekannte Dritte. Die meisten „KI-Meeting-Assistenten“ sind bessere Transkriptoren und spucken erst nach dem Meeting eine Zusammenfassung aus, zu spät, um nützlich zu sein.

Was ich gebaut habe

Ein Desktop-Copilot, der einem laufenden Gespräch zuhört (Systemaudio + Mikrofon), live transkribiert und in einem Seitenpanel kontext-bewusst flüstert: Talking Points, Rückfragen, Einwandbehandlung und eine rollierende Zusammenfassung. Läuft lokal; nur der STT-Stream verlässt den Rechner.

Architektur

Electron-Shell

Immer im Vordergrund, transparentes Overlay, konfigurierbare Hotkeys, Tray-Integration

Audio-Capture

Windows WASAPI-Loopback für Systemaudio + Standardmikrofon, gemischt auf einen 16-kHz-PCM-Stream

Streaming-STT

Deepgram Streaming API mit Sprecher-Diarisierung, Interim- + Final-Ergebnisse

Transcript-Buffer

Rolling-Window mit Sprecher-Labels, liefert dem Agenten konfigurierbare Look-back-Länge

Claude Agent SDK

Tool-nutzender Agent, der strukturierte Flüster-Einwürfe ausgibt (Talking Points, Fragen, Zusammenfassung) in konfigurierbarer Frequenz

Overlay-UI

React, zeigt Interim-Transkript, aktuellen Flüsterer, rollierende Zusammenfassung und exportierbare Post-Meeting-Notizen

Tech-Stack

ElectronNode.jsTypeScriptReactDeepgram SDKClaude Agent SDKWASAPI

Was zuerst gebrochen ist

▸
WASAPI-Loopback auf Windows ist dokumentiert; die Geräte-Enumeration-Edge-Cases nicht. Einen Tag mit einem Laptop verloren, dessen Default-Render-Gerät zwischen Sessions seinen Namen änderte, Fix: Per Geräte-ID binden, nicht per Name.
▸
Flüster-Frequenz macht oder bricht das Produkt. Zu aggressiv und das Seitenpanel wird Lärm; zu still und du vergisst es. Gelandet bei 8-Sekunden-Stille-Trigger plus End-of-Thought-Heuristik, pro Nutzer einstellbar.
▸
STT-Diarisierung versagt, wenn Host und Gast ein einziges Laptop-Mikro ohne Headset teilen. Sprecher-Tag-UI umgeschrieben, sodass das Versagen explizit angezeigt wird ('ein Sprecher, Diarisierung nicht verfügbar'), statt Falsches zu beschriften.

Ergebnis

Echtzeit-Meeting-Coach, der auf dem Rechner des Operators läuft. Transkript und Zusammenfassung bleiben lokal; nur der STT-Stream geht zu Deepgram. Im Einsatz bei Kundengesprächen, internen Reviews und Übungseinheiten.

Ehrliche Grenzen

Heute Windows-only; macOS-Pfad ist machbar, aber ~2 Wochen Arbeit, die ich nicht gemacht habe. Deepgram ist eine Cloud-Abhängigkeit für den Audio-Stream, nicht komplett lokal, anders als ein schneller Blick auf das Produkt suggeriert. Lange Meetings (>90 Minuten) treffen einen Transkript-Puffer-Trim, an dem ich noch tune, damit der Agent-Kontext kohärent bleibt.