Descripción general
Bank Statement Parser es la única biblioteca Python de código abierto que analiza siete formatos de extractos bancarios — incluyendo PDF mediante un pipeline híbrido con LLM — con una API unificada. Las bibliotecas de formato único (mt-940, ofxparse, pycamt) manejan un solo formato cada una. Las herramientas SaaS (Ocrolus, Parseur) ofrecen OCR en la nube, pero requieren enviar datos externamente y cuestan entre $49 y $1.000+/mes.
Alternativas de código abierto
Bibliotecas de formato único
La mayoría de los analizadores de extractos bancarios de código abierto manejan un solo formato. Si necesita varios formatos, debe instalar y mantener bibliotecas separadas con diferentes APIs, esquemas de salida y ciclos de actualización.
| Biblioteca | Formatos | Salida | Verificación de saldo | Exportación contable | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 formatos | Pipeline híbrido | pandas DataFrame | Regla de Oro | hledger, beancount |
| mt-940 (WoLpH) | Solo MT940 | No | Objetos Python | No | No |
| ofxparse | Solo OFX | No | Objetos Python | No | No |
| pycamt | Solo CAMT.053 | No | Objetos Python | No | No |
| ofxtools | Solo OFX v1/v2 | No | Objetos Python | No | No |
vs pyiso20022
pyiso20022 genera dataclasses de Python a partir del catálogo completo de esquemas ISO 20022. Es un kit de herramientas ISO 20022 de propósito general para trabajar con mensajes PACS, PAIN, CAMT y ADMI.
Bank Statement Parser está diseñado específicamente para analizar extractos bancarios en DataFrames con funcionalidades de producción:
| Característica | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Propósito | Análisis de extractos + extracción + exportación | Kit de herramientas de esquema ISO 20022 |
| Salida | pandas/Polars DataFrames | Dataclasses de Python |
| Formatos | 7 (incluyendo PDF, no-ISO) | Solo ISO 20022 |
| Soporte PDF | Pipeline híbrido (determinista + LLM + visión) | No |
| Verificación de saldo | Regla de Oro + multidivisa | No |
| REST API | FastAPI integrado | No |
| Enriquecimiento | Categorización con LLM | No |
| Exportación contable | hledger + beancount | No |
| Streaming | Sí (memoria acotada) | No |
| Redacción de PII | Integrada | No |
| Deduplicación | Hashes de transacción idempotentes | No |
| CLI | Sí | No |
Use pyiso20022 si necesita trabajar con el catálogo completo de mensajes ISO 20022. Use Bank Statement Parser si necesita analizar extractos bancarios en datos estructurados para análisis, conciliación o informes.
Alternativas SaaS
Las herramientas SaaS como Ocrolus, Parseur y Sensible ofrecen análisis de extractos bancarios como servicio en la nube. Normalmente usan OCR para manejar PDFs escaneados y admiten cientos de formatos específicos de bancos.
| Característica | Bank Statement Parser | Herramientas SaaS |
|---|---|---|
| Privacidad de datos | 100% local (LLMs vía Ollama) | Datos enviados a la nube |
| Costo | Gratis (Apache 2.0) | $49–$1.000+/mes (a partir del T1 2026) |
| Formatos | 7 (estructurados + PDF) | Cientos (vía OCR) |
| Soporte PDF | Sí — pipeline híbrido (determinista + LLM + visión) | Sí (OCR en la nube) |
| Verificación de saldo | Regla de Oro (automática) | Manual / limitada |
| Latencia | <2 ms (estructurado), segundos (PDF+LLM) | 1-30 segundos |
| Rendimiento | 27.000+ tx/segundo (estructurado) | Limitado por tasa de API |
| REST API | FastAPI integrado | Propietaria |
| Exportación contable | hledger + beancount | No |
| Dependencia de proveedor | Ninguna | Sí |
| Cumplimiento | Procesamiento local, SBOM | Varía según el proveedor |
Analizadores basados en LLM
Un número creciente de herramientas (Inscribe, Unstract, blueprints de Mozilla.ai) usan modelos de lenguaje grandes para analizar extractos bancarios, incluyendo PDFs escaneados. Cuando Chase rediseñó su formato de extracto de consumo a finales de 2025, los analizadores basados en plantillas fallaron mientras que los analizadores LLM se adaptaron automáticamente.
Bank Statement Parser ahora incluye su propio pipeline híbrido con LLM (v0.0.5+) que se ejecuta completamente de forma local vía Ollama. Combina lo mejor de ambos enfoques:
- Formatos estructurados (XML, CSV, OFX, MT940): Análisis determinista — 100% de precisión, latencia sub-milisegundo, cero costo de LLM.
- Extractos PDF: Enrutamiento de tres rutas (extracción determinista de tablas → texto-LLM → visión-LLM) con verificación automática de la Regla de Oro para detectar errores de extracción.
A diferencia de los analizadores LLM solo en la nube, el pipeline híbrido de Bank Statement Parser:
- Se ejecuta 100% en local (Ollama) — ningún dato sale de su máquina.
- Verifica cada extracción con verificación de saldo (Regla de Oro).
- Admite modo de revisión interactivo para discrepancias marcadas.
- Produce hashes de transacción idempotentes para ingesta incremental segura.
Cuándo elegir analizadores LLM de SaaS sobre Bank Statement Parser: Usted recibe extractos de cientos de bancos con diseños de PDF muy diferentes y necesita cobertura inmediata sin ejecutar infraestructura local.
Cuándo elegir Bank Statement Parser: Necesita procesamiento local para cumplimiento. Desea verificación de saldo. Necesita exportación contable. Quiere cero costos continuos.
Metodología de benchmark: Cifras de rendimiento medidas en Apple M2, Python 3.12, con un archivo CAMT.053 de 5.000 transacciones (2,1 MB). Resultados promediados en 100 ejecuciones. Reproduzca localmente: python -m bankstatementparser.bench. Latencia de SaaS basada en documentación de API publicada a abril de 2026.
Ver casos de uso del mundo real ❯ | Planifique su migración de MT940 a CAMT ❯