Zum Hauptinhalt springen
Private KI · eine Plattform, die ich baue

Private KI,
die das Haus nie verlässt.

Ein vollwertiger KI-Assistent für Ihre eigenen Dokumente und Systeme, vollständig auf Hardware, die Sie kontrollieren — gebaut aus einer Self-Hosted-Flotte, die ich heute betreibe. Daten verlassen das Haus nicht, jede Antwort ist belegt und protokolliert, und der Stack ist so abgesichert, wie ich Netzwerke absichere: nicht nachträglich angeschraubt.

Isometrischer Schnitt durch einen gläsernen, self-hosted abgesicherten Serverraum mit einem KI-Kern im Inneren — die Daten bleiben im Gebäude.
Vollständig lokale InferenzAntworten mit QuellenangabeUnveränderliches Audit-LogEU / Self-Hosted
Warum es das gibt

Die Modelle sind bereit. Die Daten dürfen nicht raus.

Regulierte und datensensible Organisationen — Finanzwesen, Versicherung, Gesundheit, Recht, professionelle Dienstleistungen — wollen das, was Cloud-KI kann, aber auf Basis ihrer eigenen Verträge, Richtlinien und Akten. Diese Daten an eine US-gehostete API zu senden, ist unter DSGVO, NIS2, DORA und schlichter Mandantenvertraulichkeit ausgeschlossen.

Die üblichen Antworten lauten „abwarten“ oder „eine sechsstellige Appliance kaufen“. Es gibt eine dritte Möglichkeit: Betreiben Sie es selbst, als Software, auf Infrastruktur, die Ihnen bereits gehört.

Die Plattform

Vier Schichten. Alle Self-Hosted.

Jede Schicht ist echter, laufender Code — aus einer Flotte von 20+ Self-Hosted-KI-Anwendungen extrahiert, die ich heute betreibe — keine Folie, kein Konzept.

Schicht 01

Lokales Modell-Serving

Open-Weight-Modelle laufen lokal über Ollama, geroutet über ein gehärtetes Provider-Gateway mit Rate-Limiting und Metriken. Pro Aufgabe das passende Modell. Nichts ruft nach außen.

Schicht 02

Retrieval ohne Datenabfluss

RAG auf Basis Ihrer eigenen Dokumente, mit einer Quellenangabe auf jede Antwort — Auto-Chunking, Dedup und Reranking inklusive. Das Modell kann keine Klausel zitieren, die es nicht hat, und keine erfinden, die nicht existiert.

Schicht 03

Assistent & Agenten

Ein Chat-Assistent auf Basis Ihrer Daten ist im ersten Install dabei. Mehrstufige Agenten, die echte Aktionen in Ihren Systemen ausführen — beobachtbar, fortsetzbar, idempotent bei Retry — laufen bereits über die Flotte und werden als Nächstes ins Produkt verpackt.

Schicht 04

Governance, Audit & Zugriff

Jede Frage und Antwort wird in ein unveränderliches Log geschrieben. Rollenbasierter Zugriff, Least-Privilege-DB-User pro Workload, Secrets nur in der Umgebung, Capabilities am Container abgeworfen.

Der Unterschied

Von einem Sicherheitsingenieur abgesichert — nicht angeschraubt.

Siebzehn Jahre Härtung von DAX-30-Unternehmensnetzwerken liegen unter diesem Stack. Capability-Drop in Containern, Netzwerk-Isolation pro App, Prompt-Injection-Abwehr und Secrets-Hygiene sind der Ausgangspunkt — nicht ein Befund im nächsten Audit. Dieselbe Disziplin, die einen regulierten Firewall-Bestand absichert, angewandt auf Ihre private KI.

Eine Design-Entscheidung

Warum Software, keine Appliance.

Ich habe es als Software gebaut, die Sie selbst betreiben — statt als Hardware-Box. Aus ein paar bewussten Gründen.

Eine Appliance hieße
  • Ein Hardware-Kauf, im Voraus dimensioniert und bezahlt
  • Eine Box, die untergebracht, betrieben und gewartet werden muss
  • Gebunden an Hardware und Roadmap einer Appliance
  • Kapazität beim Kauf fixiert — genutzt oder nicht
Software heißt
  • Läuft auf Ihrer Hardware, Ihrer VPC oder einer Box, die Sie schon haben
  • Installiert mit einem Befehl — docker compose up
  • Keine Appliance, kein Capex, kein Lock-in
  • Sie besitzen und auditieren jede Schicht des Stacks
Wo es heute steht

Eine Aufgabe — vollständig erledigt.

Das erste Deployment macht eine Sache durchgängig richtig, bevor irgendetwas darauf aufgesetzt wird.

  1. Auf Ihre Dokumente richten
    Ein Ordner, ein Share, ein Export — Ihre Verträge, SOPs, Richtlinien, Akten.
  2. In normaler Sprache fragen
    Es antwortet nur aus diesen Dokumenten. Kein Außenwissen sickert ein.
  3. Jede Antwort belegt ihre Quellen
    Keine Quelle, keine Aussage. Sie springen direkt zur genutzten Stelle.
  4. Jeder Austausch wird protokolliert
    Frage, Antwort und Quellen landen in einem unveränderlichen Audit-Trail.
  5. Alles läuft lokal
    docker compose up auf Ihrer eigenen Box. Keine externe API im Antwortpfad.

Ehrlicher Stand: Der Kern ist echt und läuft heute, extrahiert aus einer Self-Hosted-Flotte, die ich selbst betreibe. Das Produkt selbst ist noch früh dran — Konnektoren (SharePoint, Kernsysteme), Agenten, aufgabenspezifische Modelle und Multi-Tenant-Deployment folgen. Bereit für ein Pilot-Projekt, nicht für eine Pressemitteilung.

Wo es zählt

Die Räume, aus denen Daten nicht hinausdürfen.

Es zählt am meisten dort, wo vertrauliche Daten den Perimeter nicht verlassen dürfen — regulierte, datensensible Arbeit in der EU und im DACH-Raum.

Reguliertes Finanzwesen (MiFID II · DORA)VersicherungGesundheitswesenRecht & professionelle DiensteDatensensibler MittelstandÖffentlicher Sektor

Eines der Systeme, die ich baue.

Wenn Sie dasselbe Problem lösen — nützliche KI auf Basis von Daten, die das Haus nicht verlassen dürfen — melden Sie sich.

Kontakt aufnehmen
Fragen

Klare Antworten.

Verlassen unsere Daten unsere Infrastruktur?
Nein. Modelle, Retrieval und Speicherung laufen lokal auf Hardware, die Sie kontrollieren. Es gibt keine externe API im Antwortpfad, außer Sie fügen bewusst eine hinzu.
Brauchen wir eine spezielle Appliance?
Nein. Es ist Software. Sie läuft auf Ihren vorhandenen Servern, in einer Private Cloud (VPC) oder auf einer einzelnen GPU-Box, die Sie bereits besitzen.
Worin unterscheidet es sich von einem Cloud-KI-Assistenten?
Ein Cloud-Assistent sendet Ihre Daten an einen Drittanbieter. Dies läuft vollständig innerhalb Ihres Perimeters. Der Kompromiss: Sie hosten es selbst — und bei regulierten Daten ist genau das der Sinn.
Ist es fertig?
Der Kern ist echt und läuft heute; das Produkt selbst ist noch früh dran. Die ehrliche Antwort: bereit für ein Pilot-Projekt, nicht für eine Pressemitteilung — genau dann hat ein Design-Partner den größten Einfluss darauf.
Welche Modelle nutzt es?
Open-Weight-Modelle (Llama, Qwen und ähnliche) über Ollama. Sie können sie jederzeit tauschen — Sie sind nie an einen einzelnen Hersteller oder ein Modell gebunden.