Przegląd
Bank Statement Parser to jedyna biblioteka Pythona typu open source, która parsuje siedem formatów wyciągów bankowych — w tym PDF przez hybrydowy pipeline LLM — za pomocą ujednoliconego API. Biblioteki jednoformatowe (mt-940, ofxparse, pycamt) obsługują po jednym formacie. Narzędzia SaaS (Ocrolus, Parseur) oferują chmurowy OCR, ale wymagają wysyłania danych na zewnątrz i kosztują 49–1000+ USD miesięcznie.
Alternatywy open source
Biblioteki jednoformatowe
Większość parserów wyciągów bankowych open source obsługuje tylko jeden format. Jeśli potrzebujesz wielu formatów, musisz zainstalować i utrzymywać oddzielne biblioteki z różnymi API, schematami wyjściowymi i cyklami aktualizacji.
| Biblioteka | Formaty | Wyjście | Weryfikacja salda | Eksport do księgi | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 formatów | Hybrydowy pipeline | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | Tylko MT940 | Nie | Obiekty Pythona | Nie | Nie |
| ofxparse | Tylko OFX | Nie | Obiekty Pythona | Nie | Nie |
| pycamt | Tylko CAMT.053 | Nie | Obiekty Pythona | Nie | Nie |
| ofxtools | Tylko OFX v1/v2 | Nie | Obiekty Pythona | Nie | Nie |
vs pyiso20022
pyiso20022 generuje klasy danych Pythona z pełnego katalogu schematów ISO 20022. Jest to uniwersalny zestaw narzędzi ISO 20022 do pracy z komunikatami PACS, PAIN, CAMT i ADMI.
Bank Statement Parser jest stworzony specjalnie do parsowania wyciągów bankowych do DataFrames z funkcjami produkcyjnymi:
| Funkcja | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Przeznaczenie | Parsowanie wyciągów + ekstrakcja + eksport | Zestaw narzędzi schematu ISO 20022 |
| Wyjście | pandas/Polars DataFrames | Klasy danych Pythona |
| Formaty | 7 (w tym PDF i inne niż ISO) | Tylko ISO 20022 |
| Obsługa PDF | Hybrydowy pipeline (deterministyczny + LLM + wizja) | Nie |
| Weryfikacja salda | Golden Rule + wielowalutowa | Nie |
| REST API | Wbudowany FastAPI | Nie |
| Wzbogacanie | Kategoryzacja z użyciem LLM | Nie |
| Eksport do księgi | hledger + beancount | Nie |
| Streaming | Tak (ograniczona pamięć) | Nie |
| Redakcja PII | Wbudowana | Nie |
| Deduplikacja | Idempotentne hash transakcji | Nie |
| CLI | Tak | Nie |
Użyj pyiso20022, jeśli potrzebujesz pełnego katalogu komunikatów ISO 20022. Użyj Bank Statement Parser, jeśli chcesz parsować wyciągi bankowe do ustrukturyzowanych danych na potrzeby analizy, uzgadniania lub raportowania.
Alternatywy SaaS
Narzędzia SaaS, takie jak Ocrolus, Parseur i Sensible, oferują parsowanie wyciągów bankowych jako usługę chmurową. Zwykle używają OCR do obsługi zeskanowanych plików PDF i obsługują setki formatów specyficznych dla banków.
| Funkcja | Bank Statement Parser | Narzędzia SaaS |
|---|---|---|
| Prywatność danych | 100% lokalnie (LLM przez Ollama) | Dane wysyłane do chmury |
| Koszt | Bezpłatny (Apache 2.0) | 49–1000+ USD/mies. (stan na I kw. 2026) |
| Formaty | 7 (strukturalne + PDF) | Setki (przez OCR) |
| Obsługa PDF | Tak — hybrydowy pipeline (deterministyczny + LLM + wizja) | Tak (chmurowy OCR) |
| Weryfikacja salda | Golden Rule (automatyczna) | Ręczna / ograniczona |
| Opóźnienie | <2 ms (strukturalne), sekundy (PDF+LLM) | 1–30 sekund |
| Przepustowość | 27 000+ tx/s (strukturalne) | Ograniczona limitami API |
| REST API | Wbudowany FastAPI | Własnościowe |
| Eksport do księgi | hledger + beancount | Nie |
| Uzależnienie od dostawcy | Brak | Tak |
| Zgodność | Przetwarzanie lokalne, SBOM | Różni się w zależności od dostawcy |
Parsery oparte na LLM
Coraz więcej narzędzi (Inscribe, Unstract, Mozilla.ai blueprints) wykorzystuje duże modele językowe do parsowania wyciągów bankowych, w tym zeskanowanych plików PDF. Kiedy pod koniec 2025 r. Chase przeprojektował swój format wyciągów konsumenckich, parsery oparte na szablonach przestały działać, a parsery LLM dostosowały się automatycznie.
Bank Statement Parser zawiera teraz własny hybrydowy pipeline LLM (od wersji 0.0.5+), który działa całkowicie lokalnie przez Ollama. Łączy najlepsze cechy obu podejść:
- Formaty strukturalne (XML, CSV, OFX, MT940): Deterministyczne parsowanie — 100% dokładność, opóźnienie poniżej milisekundy, zero kosztów LLM.
- Wyciągi PDF: Trójścieżkowy routing (deterministyczna ekstrakcja tabel -> text-LLM -> vision-LLM) z automatyczną weryfikacją Golden Rule do wykrywania błędów ekstrakcji.
W przeciwieństwie do parserów LLM działających wyłącznie w chmurze, hybrydowy pipeline Bank Statement Parser:
- Działa w 100% lokalnie (Ollama) — żadne dane nie opuszczają maszyny.
- Weryfikuje każdą ekstrakcję za pomocą weryfikacji salda (Golden Rule).
- Obsługuje tryb interaktywnego przeglądu dla oznaczonych rozbieżności.
- Tworzy idempotentne hash transakcji do bezpiecznego przyrostowego importu.
Kiedy wybrać czysto chmurowe parsery LLM SaaS zamiast Bank Statement Parser: Otrzymujesz wyciągi z setek banków o bardzo różnych układach PDF i potrzebujesz gotowego pokrycia bez uruchamiania lokalnej infrastruktury.
Kiedy wybrać Bank Statement Parser: Potrzebujesz lokalnego przetwarzania ze względu na zgodność. Chcesz weryfikacji salda. Potrzebujesz eksportu do księgi. Chcesz zerowych kosztów bieżących.
Metodologia testów porównawczych: Wyniki wydajności zmierzono na Apple M2, Python 3.12, z użyciem pliku CAMT.053 zawierającego 5000 transakcji (2,1 MB). Wyniki uśredniono po 100 uruchomieniach. Odtworzenie lokalne: python -m bankstatementparser.bench. Opóźnienie SaaS na podstawie opublikowanej dokumentacji API z kwietnia 2026.
Zobacz rzeczywiste przypadki użycia ❯ | Zaplanuj migrację MT940-do-CAMT ❯