End-to-End-Training eigener Sprachmodelle, als Docker geliefert
Gebaut von Nicholas Falshaw · Komplett selbst entwickelt · Produktiv seit 2025
Sprachmodelle von der Stange kennen deine Domäne nicht. Cloud-Finetuning ist teuer, langsam und schickt dein Training weg. Die meisten Open-Source-Rezepte sind Notebook-Demos, die in Produktion nicht halten.
Eine containerisierte Finetuning-Pipeline, die auf einer einzigen Consumer-GPU läuft. Liest JSONL-Trainingsdaten, führt QLoRA-Training mit konfigurierbarem Basismodell durch, merged Adapter-Gewichte, exportiert nach GGUF für Ollama und misst per Benchmark-Harness — alles aus einem docker compose up.
Dataset-Loader
Validiert JSONL-Schema, dedupliziert, splittet Train/Eval
QLoRA-Trainer
PEFT + bitsandbytes 4-Bit-Quantisierung, konfigurierbare Rank/Alpha/Target-Modules
Checkpoint-Merger
Merged Adapter in Basisgewichte, speichert als HF-Format
GGUF-Export
llama.cpp-Konvertierung mit konfigurierbarer Quantisierung (Q4_K_M / Q5_K_M / Q8_0)
Ollama-Registrierung
Generiert Modelfile, pusht auf lokale Ollama-Instanz
Benchmark-Harness
Perplexity + domänenspezifische Evals gegen Held-out-Testset
Eigene Modelle auf Domänendaten trainiert, ohne Daten an Drittanbieter zu schicken. Inferenz läuft lokal via Ollama auf demselben VPS. Ersetzt wiederkehrende Finetuning-Kosten durch einen einmaligen Trainingslauf.