Přehled
Bank Statement Parser je jediná open-source Python knihovna, která analyzuje sedm formátů bankovních výpisů — včetně PDF přes hybridní LLM pipeline — s jednotným API. Jednoformátové knihovny (mt-940, ofxparse, pycamt) zpracovávají každá jeden formát. SaaS nástroje (Ocrolus, Parseur) nabízejí cloud OCR, ale vyžadují odesílání dat externě a stojí 49–1 000+ $/měsíc.
Open-source alternativy
Jednoformátové knihovny
Většina open-source parserů bankovních výpisů zpracovává pouze jeden formát. Pokud potřebujete více formátů, musíte instalovat a udržovat samostatné knihovny s různými API, výstupními schématy a cykly aktualizací.
| Knihovna | Formáty | Výstup | Ověření zůstatku | Export do účetnictví | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 formátů | Hybridní pipeline | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | Pouze MT940 | Ne | Objekty Pythonu | Ne | Ne |
| ofxparse | Pouze OFX | Ne | Objekty Pythonu | Ne | Ne |
| pycamt | Pouze CAMT.053 | Ne | Objekty Pythonu | Ne | Ne |
| ofxtools | Pouze OFX v1/v2 | Ne | Objekty Pythonu | Ne | Ne |
vs pyiso20022
pyiso20022 generuje Python dataclasses z úplného katalogu schémat ISO 20022. Jedná se o univerzální sadu nástrojů ISO 20022 pro práci se zprávami PACS, PAIN, CAMT a ADMI.
Bank Statement Parser je účelově vytvořen pro parsování bankovních výpisů do DataFrames s produkčními funkcemi:
| Funkce | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Účel | Parsování výpisů + extrakce + export | Sada nástrojů pro ISO 20022 schémata |
| Výstup | pandas/Polars DataFrames | Python dataclasses |
| Formáty | 7 (včetně PDF, non-ISO) | Pouze ISO 20022 |
| Podpora PDF | Hybridní pipeline (deterministický + LLM + vision) | Ne |
| Ověření zůstatku | Golden Rule + multi-měna | Ne |
| REST API | Vestavěný FastAPI | Ne |
| Obohacení | LLM kategorizace | Ne |
| Export do účetnictví | hledger + beancount | Ne |
| Streaming | Ano (omezená paměť) | Ne |
| Redakce PII | Vestavěná | Ne |
| Deduplikace | Idempotentní transakční hashe | Ne |
| CLI | Ano | Ne |
Použijte pyiso20022, pokud potřebujete pracovat s úplným katalogem zpráv ISO 20022. Použijte Bank Statement Parser, pokud potřebujete parsovat bankovní výpisy do strukturovaných dat pro analýzu, odsouhlasení nebo reporting.
SaaS alternativy
SaaS nástroje jako Ocrolus, Parseur a Sensible nabízejí parsování bankovních výpisů jako cloudovou službu. Obvykle používají OCR ke zpracování naskenovaných PDF a podporují stovky formátů specifických pro banky.
| Funkce | Bank Statement Parser | SaaS nástroje |
|---|---|---|
| Ochrana dat | 100% lokální (LLM přes Ollama) | Data odesílána do cloudu |
| Náklady | Zdarma (Apache 2.0) | 49–1 000+ $/měs. (k Q1 2026) |
| Formáty | 7 (strukturované + PDF) | Stovky (přes OCR) |
| Podpora PDF | Ano — hybridní pipeline (deterministický + LLM + vision) | Ano (cloud OCR) |
| Ověření zůstatku | Golden Rule (automatické) | Manuální / omezené |
| Latence | <2 ms (strukturované), sekundy (PDF+LLM) | 1–30 sekund |
| Propustnost | 27 000+ tx/s (strukturované) | API rate-limited |
| REST API | Vestavěný FastAPI | Proprietární |
| Export do účetnictví | hledger + beancount | Ne |
| Vendor lock-in | Žádný | Ano |
| Compliance | Lokální zpracování, SBOM | Liší se podle poskytovatele |
Parsery založené na LLM
Rostoucí počet nástrojů (Inscribe, Unstract, Mozilla.ai blueprints) využívá velké jazykové modely k parsování bankovních výpisů, včetně naskenovaných PDF. Když Chase koncem roku 2025 přepracoval formát svých spotřebitelských výpisů, parsery založené na šablonách přestaly fungovat, zatímco LLM parsery se automaticky přizpůsobily.
Bank Statement Parser nyní obsahuje vlastní hybridní LLM pipeline (v0.0.5+), který běží výhradně lokálně přes Ollama. Kombinuje to nejlepší z obou přístupů:
- Strukturované formáty (XML, CSV, OFX, MT940): Deterministické parsování — 100% přesnost, submilisekundová latence, nulové LLM náklady.
- PDF výpisy: Tříúrovňové směrování (deterministická extrakce tabulek → text-LLM → vision-LLM) s automatickým ověřením Golden Rule pro zachycení chyb extrakce.
Na rozdíl od čistě cloudových LLM parserů hybridní pipeline Bank Statement Parser:
- Běží 100% lokálně (Ollama) — žádná data neopustí váš počítač.
- Ověřuje každou extrakci pomocí ověření zůstatku (Golden Rule).
- Podporuje interaktivní režim kontroly pro označené nesrovnalosti.
- Produkuje idempotentní transakční hashe pro bezpečné inkrementální zpracování.
Kdy zvolit čistě SaaS LLM parsery místo Bank Statement Parser: Přijímáte výpisy od stovek bank s velmi odlišnými PDF rozvržením a potřebujete okamžité pokrytí bez provozování lokální infrastruktury.
Kdy zvolit Bank Statement Parser: Potřebujete lokální zpracování pro compliance. Chcete ověření zůstatku. Potřebujete export do účetnictví. Chcete nulové průběžné náklady.
Metodologie benchmarku: Údaje o výkonu měřeny na Apple M2, Python 3.12, pomocí souboru CAMT.053 s 5 000 transakcemi (2,1 MB). Výsledky průměrovány přes 100 běhů. Reprodukujte lokálně: python -m bankstatementparser.bench. Latence SaaS na základě publikované API dokumentace k dubnu 2026.
Podívejte se na reálné případy použití ❯ | Naplánujte si migraci MT940-na-CAMT ❯