OCR + LLM-Scanner für KMU-Buchhaltung
Gebaut von Nicholas Falshaw · OCR + LLM für KMU-Buchhaltung · Produktiv seit 2025
Kleine Firmen ertrinken in Belegen, Rechnungen und PDF-Kontoauszügen. Manuelle Zuordnung gegen SKR03/SKR04 frisst jeden Monat Stunden. Generische OCR-Dienste liefern Rohtext — der Buchhalter tippt dann doch alles neu ab.
Eine Eingangs-Pipeline, die PDFs, Bilder und E-Mail-Anhänge annimmt, layout-bewusstes OCR macht, Positionen per LLM strukturiert extrahiert, gegen Geschäftsregeln validiert, gegen den Kontenrahmen kategorisiert und einen buchhalter-fertigen Batch exportiert — DATEV-kompatibles CSV oder vorausgefüllte Buchungs-PDFs.
Eingang
Web-Upload, E-Mail-Anhang oder Ordner-Watcher; MIME-Erkennung und Virenscan
OCR-Schicht
Tesseract für einfache Belege, PaddleOCR für komplexe mehrspaltige Rechnungen, deutsche Sprachmodelle
LLM-Extraktion
Ollama-Modell mit Structured-Output-Prompts für JSON-Positionen (Datum, Gegenüber, Mehrwertsteuer, Netto/Brutto, Konto-Hinweis)
Validierung
Deterministische Regeln für MwSt-Plausibilität, Dubletten-Erkennung, Datumsprüfung
Speicher
PostgreSQL mit Volltextsuche über alle extrahierten Dokumente
Export
DATEV-CSV, buchhalter-fertige PDF-Übersicht oder direkter Push ins Buchhaltungssystem
Monatliche Buchhaltungsvorbereitung schrumpft von Stunden auf Minuten. Funktioniert mit deutschen Belegen und Rechnungen. Der Buchhalter bekommt einen vorkategorisierten Batch mit Confidence-Werten und einer Flag-Queue für alles, was die Pipeline nicht auto-lösen konnte.