Prezentare generală
Bank Statement Parser este singura bibliotecă Python open-source care analizează șapte formate de extrase bancare — inclusiv PDF prin pipeline hibrid LLM — cu un API unificat. Bibliotecile cu un singur format (mt-940, ofxparse, pycamt) gestionează fiecare câte un format. Instrumentele SaaS (Ocrolus, Parseur) oferă OCR cloud, dar necesită trimiterea datelor extern și costă 49–1.000+ $/lună.
Alternative open-source
Biblioteci cu un singur format
Majoritatea parserelor open-source de extrase bancare gestionează un singur format. Dacă aveți nevoie de mai multe formate, trebuie să instalați și să mențineți biblioteci separate cu API-uri, scheme de ieșire și cicluri de actualizare diferite.
| Bibliotecă | Formate | Ieșire | Verificare sold | Export registru | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 formate | Pipeline hibrid | pandas DataFrame | Regula de Aur | hledger, beancount |
| mt-940 (WoLpH) | Doar MT940 | Nu | Obiecte Python | Nu | Nu |
| ofxparse | Doar OFX | Nu | Obiecte Python | Nu | Nu |
| pycamt | Doar CAMT.053 | Nu | Obiecte Python | Nu | Nu |
| ofxtools | Doar OFX v1/v2 | Nu | Obiecte Python | Nu | Nu |
vs pyiso20022
pyiso20022 generează dataclasses Python din catalogul complet de scheme ISO 20022. Este un toolkit ISO 20022 de uz general pentru lucrul cu mesaje PACS, PAIN, CAMT și ADMI.
Bank Statement Parser este construit special pentru parsarea extraselor bancare în DataFrames cu funcționalități de producție:
| Funcționalitate | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Scop | Parsare extrase + extracție + export | Toolkit scheme ISO 20022 |
| Ieșire | DataFrames pandas/Polars | Dataclasses Python |
| Formate | 7 (inclusiv PDF, non-ISO) | Doar ISO 20022 |
| Suport PDF | Pipeline hibrid (deterministic + LLM + vision) | Nu |
| Verificare sold | Regula de Aur + multi-valută | Nu |
| REST API | FastAPI încorporat | Nu |
| Îmbogățire | Categorizare prin LLM | Nu |
| Export registru | hledger + beancount | Nu |
| Streaming | Da (memorie limitată) | Nu |
| Redactare PII | Încorporată | Nu |
| Deduplicare | Hash-uri idempotente ale tranzacțiilor | Nu |
| CLI | Da | Nu |
Folosiți pyiso20022 dacă trebuie să lucrați cu catalogul complet de mesaje ISO 20022. Folosiți Bank Statement Parser dacă trebuie să parsați extrase bancare în date structurate pentru analiză, reconciliere sau raportare.
Alternative SaaS
Instrumentele SaaS precum Ocrolus, Parseur și Sensible oferă parsarea extraselor bancare ca serviciu cloud. De obicei folosesc OCR pentru PDF-uri scanate și suportă sute de formate specifice fiecărei bănci.
| Funcționalitate | Bank Statement Parser | Instrumente SaaS |
|---|---|---|
| Confidențialitatea datelor | 100% local (LLM-uri prin Ollama) | Date trimise în cloud |
| Cost | Gratuit (Apache 2.0) | 49–1.000+ $/lună (din T1 2026) |
| Formate | 7 (structurate + PDF) | Sute (prin OCR) |
| Suport PDF | Da — pipeline hibrid (deterministic + LLM + vision) | Da (OCR cloud) |
| Verificare sold | Regula de Aur (automată) | Manuală / limitată |
| Latență | <2 ms (structurat), secunde (PDF+LLM) | 1-30 secunde |
| Debit | 27.000+ tx/secundă (structurat) | Limitat de rata API |
| REST API | FastAPI încorporat | Proprietar |
| Export registru | hledger + beancount | Nu |
| Dependență de furnizor | Niciuna | Da |
| Conformitate | Procesare locală, SBOM | Variază în funcție de furnizor |
Parsere bazate pe LLM
Un număr tot mai mare de instrumente (Inscribe, Unstract, planuri Mozilla.ai) folosesc modele lingvistice mari pentru a parsa extrase bancare, inclusiv PDF-uri scanate. Când Chase și-a reproiectat formatul de extras pentru consumatori la sfârșitul anului 2025, parserele bazate pe șabloane au eșuat, în timp ce parserele LLM s-au adaptat automat.
Bank Statement Parser include acum propriul pipeline hibrid LLM (v0.0.5+) care rulează în întregime local prin Ollama. Combină cele mai bune din ambele abordări:
- Formate structurate (XML, CSV, OFX, MT940): Parsare deterministă — acuratețe 100%, latență sub milisecundă, zero cost LLM.
- Extrase PDF: Rutare pe trei căi (extracție deterministă de tabele → text-LLM → vision-LLM) cu verificare automată prin Regula de Aur pentru a detecta erorile de extracție.
Spre deosebire de parserele LLM doar-cloud, pipeline-ul hibrid al Bank Statement Parser:
- Rulează 100% local (Ollama) — nicio dată nu părăsește mașina.
- Verifică fiecare extracție prin verificarea soldului (Regula de Aur).
- Suportă mod de revizuire interactiv pentru discrepanțele semnalate.
- Produce hash-uri idempotente ale tranzacțiilor pentru ingestie incrementală sigură.
Când să alegeți parsere SaaS LLM pure în locul Bank Statement Parser: Primiți extrase de la sute de bănci cu layout-uri PDF foarte diferite și aveți nevoie de acoperire imediată fără infrastructură locală.
Când să alegeți Bank Statement Parser: Aveți nevoie de procesare locală pentru conformitate. Doriți verificare a soldului. Aveți nevoie de export registru. Doriți zero costuri recurente.
Metodologia benchmark-ului: Cifrele de performanță au fost măsurate pe Apple M2, Python 3.12, cu un fișier CAMT.053 de 5.000 tranzacții (2,1 MB). Rezultatele sunt mediate pe 100 de rulări. Reproduceți local: python -m bankstatementparser.bench. Latența SaaS se bazează pe documentația API publicată din aprilie 2026.
Vedeți cazuri reale de utilizare ❯ | Planificați migrarea de la MT940 la CAMT ❯