Lokales Modell-Serving
Open-Weight-Modelle laufen lokal über Ollama, geroutet über ein gehärtetes Provider-Gateway mit Rate-Limiting und Metriken. Pro Aufgabe das passende Modell. Nichts ruft nach außen.
Ein vollwertiger KI-Assistent für Ihre eigenen Dokumente und Systeme, vollständig auf Hardware, die Sie kontrollieren — gebaut aus einer Self-Hosted-Flotte, die ich heute betreibe. Daten verlassen das Haus nicht, jede Antwort ist belegt und protokolliert, und der Stack ist so abgesichert, wie ich Netzwerke absichere: nicht nachträglich angeschraubt.

Regulierte und datensensible Organisationen — Finanzwesen, Versicherung, Gesundheit, Recht, professionelle Dienstleistungen — wollen das, was Cloud-KI kann, aber auf Basis ihrer eigenen Verträge, Richtlinien und Akten. Diese Daten an eine US-gehostete API zu senden, ist unter DSGVO, NIS2, DORA und schlichter Mandantenvertraulichkeit ausgeschlossen.
Die üblichen Antworten lauten „abwarten“ oder „eine sechsstellige Appliance kaufen“. Es gibt eine dritte Möglichkeit: Betreiben Sie es selbst, als Software, auf Infrastruktur, die Ihnen bereits gehört.
Jede Schicht ist echter, laufender Code — aus einer Flotte von 20+ Self-Hosted-KI-Anwendungen extrahiert, die ich heute betreibe — keine Folie, kein Konzept.
Open-Weight-Modelle laufen lokal über Ollama, geroutet über ein gehärtetes Provider-Gateway mit Rate-Limiting und Metriken. Pro Aufgabe das passende Modell. Nichts ruft nach außen.
RAG auf Basis Ihrer eigenen Dokumente, mit einer Quellenangabe auf jede Antwort — Auto-Chunking, Dedup und Reranking inklusive. Das Modell kann keine Klausel zitieren, die es nicht hat, und keine erfinden, die nicht existiert.
Ein Chat-Assistent auf Basis Ihrer Daten ist im ersten Install dabei. Mehrstufige Agenten, die echte Aktionen in Ihren Systemen ausführen — beobachtbar, fortsetzbar, idempotent bei Retry — laufen bereits über die Flotte und werden als Nächstes ins Produkt verpackt.
Jede Frage und Antwort wird in ein unveränderliches Log geschrieben. Rollenbasierter Zugriff, Least-Privilege-DB-User pro Workload, Secrets nur in der Umgebung, Capabilities am Container abgeworfen.
Siebzehn Jahre Härtung von DAX-30-Unternehmensnetzwerken liegen unter diesem Stack. Capability-Drop in Containern, Netzwerk-Isolation pro App, Prompt-Injection-Abwehr und Secrets-Hygiene sind der Ausgangspunkt — nicht ein Befund im nächsten Audit. Dieselbe Disziplin, die einen regulierten Firewall-Bestand absichert, angewandt auf Ihre private KI.
Ich habe es als Software gebaut, die Sie selbst betreiben — statt als Hardware-Box. Aus ein paar bewussten Gründen.
Das erste Deployment macht eine Sache durchgängig richtig, bevor irgendetwas darauf aufgesetzt wird.
Ehrlicher Stand: Der Kern ist echt und läuft heute, extrahiert aus einer Self-Hosted-Flotte, die ich selbst betreibe. Das Produkt selbst ist noch früh dran — Konnektoren (SharePoint, Kernsysteme), Agenten, aufgabenspezifische Modelle und Multi-Tenant-Deployment folgen. Bereit für ein Pilot-Projekt, nicht für eine Pressemitteilung.
Es zählt am meisten dort, wo vertrauliche Daten den Perimeter nicht verlassen dürfen — regulierte, datensensible Arbeit in der EU und im DACH-Raum.
Wenn Sie dasselbe Problem lösen — nützliche KI auf Basis von Daten, die das Haus nicht verlassen dürfen — melden Sie sich.