Technischer Leitfaden

LLM-Integration in bestehende Geschäftssysteme

R
Rogue AI
··10 Min. Lesezeit

Jedes Unternehmen will KI-Fähigkeiten. Die meisten LLM-Integrationsprojekte scheitern nicht an den Modellen, sondern an der Architektur. Zwischen "ChatGPT kann das" und einem System, das zuverlässig in bestehende Geschäftsprozesse integriert ist, liegen Entscheidungen zu API-Auswahl, lokaler vs. Cloud-Inferenz, Streaming, Kostensteuerung und Deployment. Dieser Leitfaden behandelt die praktischen Patterns — basierend auf 7 produktiven LLM-Anwendungen.

API vs. lokale Inferenz: Die erste Entscheidung

Die wichtigste Architekturentscheidung am Anfang jedes LLM-Integrationsprojekts:

Cloud-APIs (OpenAI, Anthropic, Google)

  • + Beste Modellqualität (GPT-4, Claude, Gemini)
  • + Kein GPU-Hardware-Aufwand
  • + Einfache Skalierung
  • − Datenschutz: Daten verlassen das Unternehmen
  • − Laufende Kosten pro Token
  • − Abhängigkeit von Drittanbietern

Lokale Inferenz (Ollama, vLLM)

  • + Volle Datenkontrolle — nichts verlässt das Netzwerk
  • + Fixkosten statt nutzungsbasiert
  • + Keine Abhängigkeit von Drittanbietern
  • − Modellqualität geringer (Llama, Mistral, Qwen)
  • − GPU-Hardware erforderlich
  • − Mehr operativer Aufwand

In der Praxis ist die Antwort oft: beides. Cloud-APIs für komplexe Aufgaben (Zusammenfassungen, Analyse), lokale Modelle für Routineaufgaben (Klassifizierung, Extraktion) und datenschutzkritische Daten. Ein Router entscheidet je nach Anfrage, welches Modell verwendet wird.

Ollama als lokale Inferenz-Plattform

Ollama vereinfacht lokale LLM-Inferenz auf eine Docker-ähnliche Erfahrung. Modell herunterladen, starten, API aufrufen. In einer Multi-App-Umgebung läuft Ollama als geteilter Service auf einem dedizierten Docker-Netzwerk. Alle Anwendungen greifen über dieselbe API auf die Modelle zu.

# Ollama als geteilter Service
services:
ollama:
image: ollama/ollama:latest
networks: [ailab-network]
ports: ["127.0.0.1:11434:11434"]
volumes: [ollama-data:/root/.ollama]

# App verbindet sich über Netzwerk
app:
environment:
- OLLAMA_URL=http://ollama:11434
networks: [app-network, ailab-network]

Streaming-Antworten implementieren

Nutzer erwarten sofortige Rückmeldung. Bei LLM-Antworten, die 2–10 Sekunden dauern, ist Streaming nicht optional, sondern Pflicht. Server-Sent Events (SSE) oder WebSockets liefern Tokens in Echtzeit zum Frontend.

// Next.js API Route mit Streaming
export async function POST(req: Request) {
const stream = new ReadableStream({
async start(controller) {
for await (const chunk of llmStream) {
controller.enqueue(encoder.encode(chunk));
}
controller.close();
}
});
return new Response(stream);
}

Kostensteuerung

LLM-Kosten explodieren schnell, wenn man nicht aufpasst. Drei Maßnahmen, die sofort wirken:

Response-Caching

Identische oder semantisch ähnliche Anfragen aus dem Cache bedienen. Redis mit TTL-basierter Invalidierung. Bei vielen Anwendungen sind 30–40% der Anfragen Wiederholungen.

Modell-Routing

Nicht jede Anfrage braucht GPT-4. Einfache Klassifizierungen laufen auf einem lokalen 7B-Modell. Komplexe Analysen gehen an Claude oder GPT-4. Ein Router-Layer entscheidet basierend auf Aufgabenkomplexität.

Token-Budgets

Pro Nutzer, pro Team oder pro Abteilung Budgets definieren. Automatische Benachrichtigung bei 80% Verbrauch, harter Stop bei 100%. Verhindert Überraschungen auf der Monatsrechnung.

Deployment-Patterns

LLM-Integrationen in Docker deployen, mit Health-Checks auf jedem Service. Die App, das LLM (Ollama), die Datenbank und Redis laufen als separate Container auf isolierten Netzwerken. Ports nur an 127.0.0.1 binden, nie an 0.0.0.0.

Für GPU-Workloads: Ollama unterstützt NVIDIA-GPUs nativ. In Umgebungen ohne GPU reichen CPU-optimierte Modelle (GGUF-Format) für 7B-Modelle mit akzeptabler Latenz.

Sicherheit und Datenschutz

Bei LLM-Integrationen im Unternehmensumfeld sind Datenschutz und Sicherheit nicht verhandelbar. Sensible Daten dürfen nur an lokale Modelle geschickt werden. API-Aufrufe an Cloud-Anbieter müssen anonymisiert werden — personenbezogene Daten vor dem API-Call maskieren und in der Antwort wieder einsetzen. Prompt Injection ist ein reales Risiko: Nutzereingaben immer von System-Prompts trennen und validieren.

Fazit

LLM-Integration ist kein Technologieproblem, sondern ein Architekturproblem. Die richtigen Entscheidungen bei API vs. lokal, Streaming, Caching und Modell-Routing bestimmen, ob ein LLM-Integrationsprojekt im Tagesbetrieb funktioniert oder nach zwei Wochen wieder abgeschaltet wird. Wer Datenschutz, Kostensteuerung und robustes Deployment von Anfang an einplant, spart sich teure Nachbesserungen.

LLM in Ihre Systeme integrieren?

Rogue AI verbindet große Sprachmodelle mit bestehenden Geschäftssystemen — von der API-Auswahl bis zum produktiven Deployment.

Projekt besprechen
Rogue AI • Production Systems •