Private KI · eine Plattform, die ich baue

Private KI,
die das Haus nie verlässt.

Ein KI-Assistent für Ihre eigenen Dokumente und Systeme, auf Hardware, die Sie kontrollieren. Daten bleiben innerhalb Ihres Perimeters, jede Antwort belegt ihre Quelle und landet in einem Audit-Log. Der Stack wird mit derselben Disziplin gehärtet wie regulierte Netzwerke.

So ist es gebaut Pilot besprechen

Isometrischer Schnitt durch einen gläsernen, self-hosted abgesicherten Serverraum mit einem KI-Kern im Inneren, die Daten bleiben im Gebäude.

Vollständig lokale InferenzAntworten mit QuellenangabeUnveränderliches Audit-LogEU / Self-Hosted

Warum es das gibt

Die Modelle sind bereit. Die Daten dürfen nicht raus.

Regulierte und datensensible Organisationen, Finanzwesen, Versicherung, Gesundheit, Recht, professionelle Dienstleistungen, wollen das, was Cloud-KI kann, aber auf Basis ihrer eigenen Verträge, Richtlinien und Akten. Diese Daten an eine US-gehostete API zu senden, ist unter DSGVO, NIS2, DORA und schlichter Mandantenvertraulichkeit ausgeschlossen.

Die üblichen Antworten lauten „abwarten“ oder „eine sechsstellige Appliance kaufen“. Es gibt eine dritte Möglichkeit: Betreiben Sie es selbst, als Software, auf Infrastruktur, die Ihnen bereits gehört.

Die Plattform

Vier Schichten. Alle Self-Hosted.

Jede Schicht stammt aus laufendem Code einer Flotte von 20+ Self-Hosted-KI-Anwendungen.

Schicht 01

Lokales Modell-Serving

Open-Weight-Modelle laufen lokal über Ollama, geroutet über ein gehärtetes Provider-Gateway mit Rate-Limiting und Metriken. Pro Aufgabe das passende Modell. Nichts ruft nach außen.

Schicht 02

Retrieval ohne Datenabfluss

RAG auf Basis Ihrer eigenen Dokumente, mit einer Quellenangabe auf jede Antwort, Auto-Chunking, Dedup und Reranking inklusive. Keine Quelle, keine Aussage.

Schicht 03

Assistent & Agenten

Ein Chat-Assistent auf Basis Ihrer Daten ist im ersten Install dabei. Mehrstufige Agenten, die echte Aktionen in Ihren Systemen ausführen, beobachtbar, fortsetzbar, idempotent bei Retry, laufen bereits über die Flotte und werden als Nächstes ins Produkt verpackt.

Schicht 04

Governance, Audit & Zugriff

Jede Frage und Antwort wird in ein unveränderliches Log geschrieben. Rollenbasierter Zugriff, Least-Privilege-DB-User pro Workload, Secrets nur in der Umgebung, Capabilities am Container abgeworfen.

Der Unterschied

Von einem Sicherheitsingenieur abgesichert, nicht später angeschraubt.

Enterprise-Netzwerk-Härtungsdisziplin liegt unter diesem Stack. Capability-Drop in Containern, Netzwerk-Isolation pro App, Prompt-Injection-Abwehr und Secrets-Hygiene sind der Ausgangspunkt. Dieselbe Disziplin, die einen regulierten Firewall-Bestand absichert, angewandt auf Ihre private KI.

Eine Design-Entscheidung

Warum Software, keine Appliance.

Ich habe es als Software gebaut, die Sie selbst betreiben, statt als Hardware-Box. Aus ein paar bewussten Gründen.

Eine Appliance hieße

Ein Hardware-Kauf, im Voraus dimensioniert und bezahlt
Eine Box, die untergebracht, betrieben und gewartet werden muss
Gebunden an Hardware und Roadmap einer Appliance
Kapazität beim Kauf fixiert, genutzt oder nicht

Software heißt

Läuft auf Ihrer Hardware, Ihrer VPC oder einer Box, die Sie schon haben
Installiert mit einem Befehl, docker compose up
Keine Appliance, kein Capex, kein Lock-in
Sie besitzen und auditieren jede Schicht des Stacks

Wo es heute steht

Eine Aufgabe, vollständig erledigt.

Das erste Deployment macht eine Sache durchgängig richtig, bevor irgendetwas darauf aufgesetzt wird.

Auf Ihre Dokumente richten
Ein Ordner, ein Share, ein Export, Ihre Verträge, SOPs, Richtlinien, Akten.
In normaler Sprache fragen
Es antwortet nur aus diesen Dokumenten. Kein Außenwissen sickert ein.
Jede Antwort belegt ihre Quellen
Keine Quelle, keine Aussage. Sie springen direkt zur genutzten Stelle.
Jeder Austausch wird protokolliert
Frage, Antwort und Quellen landen in einem unveränderlichen Audit-Trail.
Alles läuft lokal
docker compose up auf Ihrer eigenen Box. Keine externe API im Antwortpfad.

Ehrlicher Stand: Der Kern ist echt und läuft heute, extrahiert aus einer Self-Hosted-Flotte, die ich selbst betreibe. Das Produkt selbst ist noch früh dran, Konnektoren (SharePoint, Kernsysteme), Agenten, aufgabenspezifische Modelle und Multi-Tenant-Deployment folgen. Bereit für ein Pilot-Projekt, nicht für eine Pressemitteilung.

Wo es zählt

Die Räume, aus denen Daten nicht hinausdürfen.

Es zählt am meisten dort, wo vertrauliche Daten den Perimeter nicht verlassen dürfen, regulierte, datensensible Arbeit in der EU und im DACH-Raum.

Reguliertes Finanzwesen (MiFID II · DORA)VersicherungGesundheitswesenRecht & professionelle DiensteDatensensibler MittelstandÖffentlicher Sektor

Eines der Systeme, die ich baue.

Wenn Sie nützliche KI auf Basis von Daten brauchen, die Ihren Perimeter nicht verlassen dürfen, können wir einen Pilot um einen Dokumentensatz und einen messbaren Workflow schneiden.

Pilot besprechen

Fragen

Klare Antworten.

Verlassen unsere Daten unsere Infrastruktur?

Nein. Modelle, Retrieval und Speicherung laufen lokal auf Hardware, die Sie kontrollieren. Es gibt keine externe API im Antwortpfad, außer Sie fügen bewusst eine hinzu.

Brauchen wir eine spezielle Appliance?

Nein. Es ist Software. Sie läuft auf Ihren vorhandenen Servern, in einer Private Cloud (VPC) oder auf einer einzelnen GPU-Box, die Sie bereits besitzen.

Worin unterscheidet es sich von einem Cloud-KI-Assistenten?

Ein Cloud-Assistent sendet Ihre Daten an einen Drittanbieter. Dies läuft vollständig innerhalb Ihres Perimeters. Der Kompromiss: Sie hosten es selbst, und bei regulierten Daten ist genau das der Sinn.

Ist es fertig?

Der Kern ist echt und läuft heute; das Produkt selbst ist noch früh dran. Die ehrliche Antwort: bereit für ein Pilot-Projekt, nicht für eine Pressemitteilung, genau dann hat ein Design-Partner den größten Einfluss darauf.

Welche Modelle nutzt es?

Open-Weight-Modelle (Llama, Qwen und ähnliche) über Ollama. Sie können sie jederzeit tauschen, Sie sind nie an einen einzelnen Hersteller oder ein Modell gebunden.

Private KI,die das Haus nie verlässt.