Steuerdokumenten-KI
OCR + LLM-Scanner für KMU-Buchhaltung
Gebaut von Rogue AI · OCR + LLM für KMU-Buchhaltung · Produktiv seit 2026
Erster Tesseract-only-Prototyp: Januar 2026. PaddleOCR + llava:13b-Layer im Februar dazu, sobald Tesseract bei foto-getippten deutschen Rechnungen mit Tabellenlayout aufgab. DATEV-Export und SKR03/SKR04-Mapping kamen im März. Über achtzig Commits, aktiv durch April 2026.
Das Problem
Kleine Firmen ertrinken in Belegen, Rechnungen und PDF-Kontoauszügen. Manuelle Zuordnung gegen SKR03/SKR04 frisst jeden Monat Stunden. Generische OCR-Dienste liefern Rohtext — der Buchhalter tippt dann doch alles neu ab.
Was ich gebaut habe
Eine Eingangs-Pipeline, die PDFs, Bilder und E-Mail-Anhänge annimmt, layout-bewusstes OCR macht, Positionen per LLM strukturiert extrahiert, gegen Geschäftsregeln validiert, gegen den Kontenrahmen kategorisiert und einen buchhalter-fertigen Batch exportiert — DATEV-kompatibles CSV oder vorausgefüllte Buchungs-PDFs.
Architektur
Tech-Stack
Was zuerst gebrochen ist
- ▸
Tesseract auf foto-getippten deutschen Belegen ist hoffnungslos — Umlaute, Unschärfe und Rotation killen es. PaddleOCR ist schwerer, aber der Genauigkeitsabstand auf realen Belegen ist riesig.
- ▸
llava:13b erfindet bei verrauschten Rechnungen manchmal selbstbewusst Summen. Eine deterministische MwSt-Plausibilitätsprüfung markiert jetzt, wenn Netto + MwSt nicht innerhalb der Toleranz dem Brutto entspricht.
- ▸
SKR03 vs SKR04: Hier verdient sich das LLM seinen Strom. Hardcoded Regeln decken ~60 % ab; den Rest schließt das LLM mit Confidence-Schwelle und einer Flag-Queue für alles Unklare.
Ergebnis
Monatliche Buchhaltungsvorbereitung schrumpft von Stunden auf Minuten. Funktioniert mit deutschen Belegen und Rechnungen. Der Buchhalter bekommt einen vorkategorisierten Batch mit Confidence-Werten und einer Flag-Queue für alles, was die Pipeline nicht auto-lösen konnte.
Ehrliche Grenzen
Handgeschriebene Belege gehen weiter in die menschliche Queue. DATEV-Export ist einseitig; kein Round-Trip-Sync. Trainiert auf deutsche Belegformate — funktioniert mit EN/DE-Rechnungen, schwächelt bei nicht-deutschen Belegformaten, soweit ich sie getestet habe.
