Modelltraining

LLM Finetuning-Pipeline

End-to-End-Training eigener Sprachmodelle, als Docker geliefert

Gebaut von Nicholas Falshaw · Komplett selbst entwickelt · Produktiv seit 2025

Das Problem

Sprachmodelle von der Stange kennen deine Domäne nicht. Cloud-Finetuning ist teuer, langsam und schickt dein Training weg. Die meisten Open-Source-Rezepte sind Notebook-Demos, die in Produktion nicht halten.

Was ich gebaut habe

Eine containerisierte Finetuning-Pipeline, die auf einer einzigen Consumer-GPU läuft. Liest JSONL-Trainingsdaten, führt QLoRA-Training mit konfigurierbarem Basismodell durch, merged Adapter-Gewichte, exportiert nach GGUF für Ollama und misst per Benchmark-Harness — alles aus einem docker compose up.

Architektur

  • Dataset-Loader

    Validiert JSONL-Schema, dedupliziert, splittet Train/Eval

  • QLoRA-Trainer

    PEFT + bitsandbytes 4-Bit-Quantisierung, konfigurierbare Rank/Alpha/Target-Modules

  • Checkpoint-Merger

    Merged Adapter in Basisgewichte, speichert als HF-Format

  • GGUF-Export

    llama.cpp-Konvertierung mit konfigurierbarer Quantisierung (Q4_K_M / Q5_K_M / Q8_0)

  • Ollama-Registrierung

    Generiert Modelfile, pusht auf lokale Ollama-Instanz

  • Benchmark-Harness

    Perplexity + domänenspezifische Evals gegen Held-out-Testset

Tech-Stack

PythonLlamaFactoryllama.cppOllamaMLflowRunPodDocker

Ergebnis

Eigene Modelle auf Domänendaten trainiert, ohne Daten an Drittanbieter zu schicken. Inferenz läuft lokal via Ollama auf demselben VPS. Ersetzt wiederkehrende Finetuning-Kosten durch einen einmaligen Trainingslauf.

Rogue AI • Production Systems •