Überblick
Bank Statement Parser ist die einzige Open-Source-Python-Bibliothek, die sieben Kontoauszugsformate — einschließlich PDF über eine hybride LLM-Pipeline — mit einer einheitlichen API parst. Einzelformat-Bibliotheken (mt-940, ofxparse, pycamt) verarbeiten jeweils nur ein Format. SaaS-Tools (Ocrolus, Parseur) bieten Cloud-OCR, erfordern aber externen Datenversand und kosten 49–1.000+ $/Monat.
Open-Source-Alternativen
Einzelformat-Bibliotheken
Die meisten Open-Source-Kontoauszugsparser verarbeiten nur ein Format. Für mehrere Formate müssen Sie separate Bibliotheken mit unterschiedlichen APIs, Ausgabeschemata und Update-Zyklen installieren und pflegen.
| Bibliothek | Formate | Ausgabe | Saldoprüfung | Ledger-Export | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 Formate | Hybride Pipeline | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | Nur MT940 | Nein | Python-Objekte | Nein | Nein |
| ofxparse | Nur OFX | Nein | Python-Objekte | Nein | Nein |
| pycamt | Nur CAMT.053 | Nein | Python-Objekte | Nein | Nein |
| ofxtools | Nur OFX v1/v2 | Nein | Python-Objekte | Nein | Nein |
vs. pyiso20022
pyiso20022 generiert Python-Dataclasses aus dem vollständigen ISO 20022-Schemakatalog. Es ist ein allgemeines ISO 20022-Toolkit für die Arbeit mit PACS-, PAIN-, CAMT- und ADMI-Nachrichten.
Bank Statement Parser ist speziell für das Parsen von Kontoauszügen in DataFrames mit Produktionsfunktionen gebaut:
| Merkmal | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Zweck | Auszugs-Parsing + Extraktion + Export | ISO 20022-Schema-Toolkit |
| Ausgabe | pandas/Polars DataFrames | Python-Dataclasses |
| Formate | 7 (inkl. PDF, Nicht-ISO) | Nur ISO 20022 |
| PDF-Unterstützung | Hybride Pipeline (deterministisch + LLM + Vision) | Nein |
| Saldoprüfung | Golden Rule + Multi-Währung | Nein |
| REST API | Integriert (FastAPI) | Nein |
| Anreicherung | LLM-gestützte Kategorisierung | Nein |
| Ledger-Export | hledger + beancount | Nein |
| Streaming | Ja (begrenzter Speicher) | Nein |
| PII-Schwärzung | Integriert | Nein |
| Deduplizierung | Idempotente Transaktions-Hashes | Nein |
| CLI | Ja | Nein |
Verwenden Sie pyiso20022, wenn Sie mit dem vollständigen ISO 20022-Nachrichtenkatalog arbeiten müssen. Verwenden Sie Bank Statement Parser, wenn Sie Kontoauszüge in strukturierte Daten für Analysen, Abstimmung oder Berichte parsen möchten.
SaaS-Alternativen
SaaS-Tools wie Ocrolus, Parseur und Sensible bieten Kontoauszugs-Parsing als Cloud-Dienst an. Sie nutzen meist OCR für gescannte PDFs und unterstützen Hunderte bankspezifischer Formate.
| Merkmal | Bank Statement Parser | SaaS-Tools |
|---|---|---|
| Datenschutz | 100 % lokal (LLMs via Ollama) | Daten in die Cloud gesendet |
| Kosten | Kostenlos (Apache 2.0) | 49–1.000+ $/Monat (Stand Q1 2026) |
| Formate | 7 (strukturiert + PDF) | Hunderte (via OCR) |
| PDF-Unterstützung | Ja — hybride Pipeline (deterministisch + LLM + Vision) | Ja (Cloud-OCR) |
| Saldoprüfung | Golden Rule (automatisch) | Manuell / eingeschränkt |
| Latenz | < 2 ms (strukturiert), Sekunden (PDF+LLM) | 1–30 Sekunden |
| Durchsatz | 27.000+ TX/Sekunde (strukturiert) | API-ratenbegrenzt |
| REST API | Integriert (FastAPI) | Proprietär |
| Ledger-Export | hledger + beancount | Nein |
| Vendor Lock-in | Keiner | Ja |
| Compliance | Lokale Verarbeitung, SBOM | Je nach Anbieter |
LLM-basierte Parser
Immer mehr Tools (Inscribe, Unstract, Mozilla.ai Blueprints) nutzen Large Language Models zum Parsen von Kontoauszügen, einschließlich gescannter PDFs. Als Chase Ende 2025 sein Verbraucher-Auszugsformat änderte, versagten vorlagenbasierte Parser — LLM-Parser passten sich automatisch an.
Bank Statement Parser enthält seit v0.0.5+ eine eigene hybride LLM-Pipeline, die vollständig lokal über Ollama läuft. Sie vereint das Beste beider Ansätze:
- Strukturierte Formate (XML, CSV, OFX, MT940): Deterministisches Parsing — 100 % Genauigkeit, Sub-Millisekunden-Latenz, keine LLM-Kosten.
- PDF-Auszüge: Dreistufiges Routing (deterministische Tabellenextraktion → Text-LLM → Vision-LLM) mit automatischer Golden-Rule-Prüfung zum Erkennen von Extraktionsfehlern.
Im Gegensatz zu reinen Cloud-LLM-Parsern bietet die hybride Pipeline von Bank Statement Parser:
- Läuft 100 % lokal (Ollama) — keine Daten verlassen Ihren Rechner.
- Prüft jede Extraktion mit Saldoverifizierung (Golden Rule).
- Unterstützt interaktiven Prüfmodus für markierte Abweichungen.
- Erzeugt idempotente Transaktions-Hashes für sichere inkrementelle Aufnahme.
Wann Sie reine SaaS-LLM-Parser bevorzugen sollten: Sie erhalten Auszüge von Hunderten Banken mit sehr unterschiedlichen PDF-Layouts und benötigen sofortige Abdeckung ohne lokale Infrastruktur.
Wann Sie Bank Statement Parser wählen sollten: Sie benötigen lokale Verarbeitung für Compliance. Sie möchten Saldoprüfung. Sie brauchen Ledger-Export. Sie wollen keine laufenden Kosten.
Benchmark-Methodik: Leistungswerte gemessen auf Apple M2, Python 3.12, mit einer 5.000-Transaktionen-CAMT.053-Datei (2,1 MB). Ergebnisse gemittelt über 100 Durchläufe. Lokal reproduzierbar: python -m bankstatementparser.bench. SaaS-Latenz basiert auf veröffentlichter API-Dokumentation, Stand April 2026.
Reale Anwendungsfälle ansehen ❯ | Ihre MT940-zu-CAMT-Migration planen ❯