Visão Geral
Bank Statement Parser é a única biblioteca Python de código aberto que analisa sete formatos de extrato bancário — incluindo PDF via pipeline híbrido com LLM — com uma API unificada. Bibliotecas de formato único (mt-940, ofxparse, pycamt) lidam com apenas um formato cada. Ferramentas SaaS (Ocrolus, Parseur) oferecem OCR na nuvem, mas exigem envio de dados externamente e custam US$ 49–US$ 1.000+/mês.
Alternativas de Código Aberto
Bibliotecas de Formato Único
A maioria dos parsers de extratos bancários de código aberto lida com apenas um formato. Se você precisa de vários formatos, terá que instalar e manter bibliotecas separadas com APIs, schemas de saída e ciclos de atualização diferentes.
| Biblioteca | Formatos | Saída | Verificação de Saldo | Exportação Contábil | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 formatos | Pipeline híbrido | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | Apenas MT940 | Não | Objetos Python | Não | Não |
| ofxparse | Apenas OFX | Não | Objetos Python | Não | Não |
| pycamt | Apenas CAMT.053 | Não | Objetos Python | Não | Não |
| ofxtools | Apenas OFX v1/v2 | Não | Objetos Python | Não | Não |
vs pyiso20022
pyiso20022 gera dataclasses Python a partir do catálogo completo de schemas ISO 20022. É um kit de ferramentas ISO 20022 de uso geral para trabalhar com mensagens PACS, PAIN, CAMT e ADMI.
Bank Statement Parser foi feito especificamente para analisar extratos bancários em DataFrames com recursos de produção:
| Recurso | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Propósito | Análise de extratos + extração + exportação | Kit de ferramentas de schema ISO 20022 |
| Saída | pandas/Polars DataFrames | Dataclasses Python |
| Formatos | 7 (incluindo PDF e não-ISO) | Apenas ISO 20022 |
| Suporte a PDF | Pipeline híbrido (determinístico + LLM + visão) | Não |
| Verificação de saldo | Golden Rule + multimoeda | Não |
| REST API | FastAPI integrado | Não |
| Enriquecimento | Categorização via LLM | Não |
| Exportação contábil | hledger + beancount | Não |
| Streaming | Sim (memória limitada) | Não |
| Redação de PII | Integrada | Não |
| Deduplicação | Hashes de transação idempotentes | Não |
| CLI | Sim | Não |
Use pyiso20022 se você precisa trabalhar com o catálogo completo de mensagens ISO 20022. Use Bank Statement Parser se você precisa analisar extratos bancários em dados estruturados para análise, reconciliação ou relatórios.
Alternativas SaaS
Ferramentas SaaS como Ocrolus, Parseur e Sensible oferecem análise de extratos bancários como serviço na nuvem. Elas normalmente usam OCR para lidar com PDFs digitalizados e suportam centenas de formatos específicos de bancos.
| Recurso | Bank Statement Parser | Ferramentas SaaS |
|---|---|---|
| Privacidade de dados | 100% local (LLMs via Ollama) | Dados enviados para nuvem |
| Custo | Gratuito (Apache 2.0) | US$ 49–US$ 1.000+/mês (Q1 2026) |
| Formatos | 7 (estruturados + PDF) | Centenas (via OCR) |
| Suporte a PDF | Sim — pipeline híbrido (determinístico + LLM + visão) | Sim (OCR na nuvem) |
| Verificação de saldo | Golden Rule (automática) | Manual / limitada |
| Latência | < 2 ms (estruturado), segundos (PDF+LLM) | 1–30 segundos |
| Throughput | 27.000+ tx/segundo (estruturado) | Limitado por taxa de API |
| REST API | FastAPI integrado | Proprietária |
| Exportação contábil | hledger + beancount | Não |
| Dependência de fornecedor | Nenhuma | Sim |
| Conformidade | Processamento local, SBOM | Varia por provedor |
Parsers Baseados em LLM
Um número crescente de ferramentas (Inscribe, Unstract, blueprints Mozilla.ai) usa modelos de linguagem grandes para analisar extratos bancários, incluindo PDFs digitalizados. Quando o Chase redesenhou seu formato de extrato para consumidores no final de 2025, parsers baseados em template quebraram, enquanto parsers LLM se adaptaram automaticamente.
Bank Statement Parser agora inclui seu próprio pipeline híbrido com LLM (v0.0.5+), que roda 100% localmente via Ollama. Ele combina o melhor das duas abordagens:
- Formatos estruturados (XML, CSV, OFX, MT940): Análise determinística — 100% de precisão, latência submilissegundo, custo zero com LLM.
- Extratos em PDF: Roteamento por três caminhos (extração determinística de tabelas -> text-LLM -> vision-LLM) com verificação automática Golden Rule para detectar erros de extração.
Diferente de parsers LLM que rodam apenas na nuvem, o pipeline híbrido do Bank Statement Parser:
- Roda 100% localmente (Ollama) — nenhum dado sai da sua máquina.
- Verifica toda extração com verificação de saldo (Golden Rule).
- Suporta modo de revisão interativa para discrepâncias sinalizadas.
- Produz hashes de transação idempotentes para ingestão incremental segura.
Quando escolher parsers LLM em SaaS puro em vez do Bank Statement Parser: Você recebe extratos de centenas de bancos com layouts de PDF muito diferentes e precisa de cobertura imediata sem rodar infraestrutura local.
Quando escolher Bank Statement Parser: Você precisa de processamento local para conformidade. Você quer verificação de saldo. Você precisa de exportação contábil. Você quer custo contínuo zero.
Metodologia de benchmark: Valores de desempenho medidos em Apple M2, Python 3.12, usando um arquivo CAMT.053 de 5.000 transações (2,1 MB). Resultados com média de 100 execuções. Reproduza localmente: python -m bankstatementparser.bench. Latência de SaaS baseada na documentação de API publicada em abril de 2026.
Veja casos de uso reais ❯ | Planeje sua migração MT940 para CAMT ❯