Panoramica
Bank Statement Parser è l'unica libreria Python open source che analizza sette formati di estratti conto — incluso PDF tramite una pipeline LLM ibrida — con un'API unificata. Le librerie a formato singolo (mt-940, ofxparse, pycamt) gestiscono ciascuna un solo formato. Gli strumenti SaaS (Ocrolus, Parseur) offrono OCR cloud ma richiedono l'invio di dati all'esterno e costano da $49 a $1.000+/mese.
Alternative open source
Librerie a formato singolo
La maggior parte dei parser di estratti conto open source gestisce un solo formato. Per più formati, è necessario installare e mantenere librerie separate con API, schemi di output e cicli di aggiornamento diversi.
| Libreria | Formati | Output | Verifica saldo | Esportazione contabile | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 formati | Pipeline ibrida | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | Solo MT940 | No | Oggetti Python | No | No |
| ofxparse | Solo OFX | No | Oggetti Python | No | No |
| pycamt | Solo CAMT.053 | No | Oggetti Python | No | No |
| ofxtools | Solo OFX v1/v2 | No | Oggetti Python | No | No |
Confronto con pyiso20022
pyiso20022 genera dataclass Python dal catalogo completo di schemi ISO 20022. Si tratta di un toolkit generico ISO 20022 per lavorare con messaggi PACS, PAIN, CAMT e ADMI.
Bank Statement Parser è progettato specificamente per analizzare estratti conto in DataFrames con funzionalità di produzione:
| Caratteristica | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Scopo | Parsing estratti + estrazione + esportazione | Toolkit schemi ISO 20022 |
| Output | pandas/Polars DataFrames | Dataclass Python |
| Formati | 7 (inclusi PDF e non-ISO) | Solo ISO 20022 |
| Supporto PDF | Pipeline ibrida (deterministico + LLM + vision) | No |
| Verifica saldo | Golden Rule + multi-valuta | No |
| REST API | FastAPI integrata | No |
| Arricchimento | Categorizzazione tramite LLM | No |
| Esportazione contabile | hledger + beancount | No |
| Streaming | Sì (memoria limitata) | No |
| Oscuramento PII | Integrato | No |
| Deduplicazione | Hash idempotenti delle transazioni | No |
| CLI | Sì | No |
Utilizzare pyiso20022 se si necessita dell'intero catalogo messaggi ISO 20022. Utilizzare Bank Statement Parser per analizzare estratti conto in dati strutturati per analisi, riconciliazione o reporting.
Alternative SaaS
Strumenti SaaS come Ocrolus, Parseur e Sensible offrono il parsing di estratti conto come servizio cloud. In genere utilizzano l'OCR per gestire i PDF scannerizzati e supportano centinaia di formati specifici per banca.
| Caratteristica | Bank Statement Parser | Strumenti SaaS |
|---|---|---|
| Privacy dei dati | 100% locale (LLM via Ollama) | Dati inviati al cloud |
| Costo | Gratuito (Apache 2.0) | $49–$1.000+/mese (al Q1 2026) |
| Formati | 7 (strutturati + PDF) | Centinaia (tramite OCR) |
| Supporto PDF | Sì — pipeline ibrida (deterministico + LLM + vision) | Sì (OCR cloud) |
| Verifica saldo | Golden Rule (automatica) | Manuale / limitata |
| Latenza | <2 ms (strutturati), secondi (PDF+LLM) | 1-30 secondi |
| Throughput | 27.000+ tx/secondo (strutturati) | Limitato da rate API |
| REST API | FastAPI integrata | Proprietaria |
| Esportazione contabile | hledger + beancount | No |
| Vendor lock-in | Nessuno | Sì |
| Conformità | Elaborazione locale, SBOM | Varia per fornitore |
Parser basati su LLM
Un numero crescente di strumenti (Inscribe, Unstract, blueprint Mozilla.ai) utilizza modelli linguistici di grandi dimensioni per analizzare estratti conto, inclusi PDF scannerizzati. Quando Chase ha ridisegnato il formato dell'estratto conto consumer a fine 2025, i parser basati su template si sono rotti mentre quelli LLM si sono adattati automaticamente.
Bank Statement Parser include ora una propria pipeline LLM ibrida (v0.0.5+) che gira interamente in locale via Ollama. Combina il meglio di entrambi gli approcci:
- Formati strutturati (XML, CSV, OFX, MT940): parsing deterministico — precisione al 100%, latenza sub-millisecondo, zero costi LLM.
- Estratti conto PDF: routing a tre percorsi (estrazione deterministica tabelle → text-LLM → vision-LLM) con verifica automatica Golden Rule per individuare errori di estrazione.
A differenza dei parser LLM solo cloud, la pipeline ibrida di Bank Statement Parser:
- Gira al 100% in locale (Ollama) — nessun dato lascia la macchina.
- Verifica ogni estrazione con la verifica del saldo (Golden Rule).
- Supporta la modalità di revisione interattiva per le discrepanze segnalate.
- Produce hash idempotenti delle transazioni per un'ingestione incrementale sicura.
Quando scegliere parser LLM SaaS puri rispetto a Bank Statement Parser: si ricevono estratti da centinaia di banche con layout PDF molto diversi e si necessita di copertura immediata senza infrastruttura locale.
Quando scegliere Bank Statement Parser: si necessita di elaborazione locale per la conformità. Si vuole la verifica del saldo. Si necessita di esportazione contabile. Si desidera zero costi correnti.
Metodologia di benchmark: dati sulle prestazioni misurati su Apple M2, Python 3.12, usando un file CAMT.053 da 5.000 transazioni (2,1 MB). Risultati mediati su 100 esecuzioni. Riprodurre in locale: python -m bankstatementparser.bench. Latenza SaaS basata sulla documentazione API pubblicata ad aprile 2026.
Scopri i casi d'uso reali ❯ | Pianifica la migrazione da MT940 a CAMT ❯