Sundin ang Bank Statement Parser development. Mag-subscribe sa pamamagitan ng RSS o panoorin ang GitHub repository para sa mga abiso sa pagpapalabas.
v0.0.8 — 2026-04-11 (Latest) — "Full Platform"
- Multi-currency balance verification —
verify_balance_multi_currency()groups by currency, runs Golden Rule per group. - hledger + beancount export —
to_hledger()andto_beancount()inbankstatementparser.export. - Bulk directory scanner —
scan_and_ingest()scans folder trees, deduplicates across batch. - Account mapping rules —
AccountMapperwith ordered regex rules from JSON config. - REST API — FastAPI wrapper with
/ingestand/healthendpoints ([api]extra).
v0.0.7 — 2026-04-08 — "Universal Vision"
- Direct Ollama bridge (
ollama_direct_completion) — bypasses LiteLLM long-prompt hang. - Strip mode (
VisionExtractor.strip_rows=True) — splits dense pages into overlapping bands for small local models. - Recommended vision model changed from
llavatominicpm-v.
v0.0.6 — 2026-04-08 — "Intelligence Layer"
- Dropped Python 3.9 support (now 3.10-3.14).
- Enrichment module (
Categorizer,EnrichedTransaction,DEFAULT_CATEGORY_SCHEMA). - Interactive review mode with
--type reviewCLI command. - Per-row bounding box extraction (
Transaction.source_bbox).
v0.0.5 — 2026-04-08 — "Universal Extraction"
- Hybrid PDF pipeline (
smart_ingest()) with deterministic/text-LLM/vision-LLM routing. LLMExtractorfor digital PDFs via LiteLLM.VisionExtractorfor scanned PDFs via multimodal vision models.- Golden Rule balance verification (
opening + credits - debits == closing). - Idempotent deduplication via
transaction_hash(MD5 fingerprint).
v0.0.4 — 2026-03-15
- Idinagdag ang parallel na pag-parse ng file sa
parse_files_parallel()gamit ang ProcessPoolExecutor. - Nagdagdag ng totoong streaming para sa malalaking PAIN.001 na file (50 MB+) na may bounded memory.
- Mga pag-optimize ng performance: Ang throughput ng CAMT ay lumampas na ngayon sa 27,000 tx/s, ang PAIN.001 ay lumampas sa 52,000 tx/s.
- Idinagdag
Deduplicatorklase para sa pag-detect ng mga eksaktong duplicate at pinaghihinalaang mga tugma na may mga marka ng kumpiyansa. - Idinagdag
from_string()atfrom_bytes()mga pamamaraan para sa in-memory na pag-parse nang walang disk I/O. - Idinagdag
iter_secure_xml_entries()para sa secure na pagpoproseso ng ZIP archive. - Pinalawak na CI na may pagpapatupad ng threshold ng pagganap.
v0.0.3 — 2025-11-20
- Nagdagdag ng suporta sa CSV, OFX, QFX, at MT940 parser.
- Nagdagdag ng format na auto-detection gamit ang
detect_statement_format()atcreate_parser(). - Nagdagdag ng PII redaction (naka-on bilang default sa CLI at streaming mode).
- Nagdagdag ng mga katulong sa pag-export para sa CSV, JSON, at Excel.
- Nagdagdag ng opsyonal na suporta sa Polars DataFrame.
- Pinalawak na test suite sa 718 na pagsubok na may 100% branch coverage.
v0.0.2 — 2025-06-10
- Nagdagdag ng PAIN.001 parser (
Pain001Parser) para sa ISO 20022 na mga file ng pagsisimula ng paglilipat ng kredito. - Idinagdag ang interface ng CLI (
python -m bankstatementparser.cli). - Nagdagdag ng streaming mode na may
parse_streaming(). - Nagdagdag ng pagpapatunay ng input at mga limitasyon sa laki ng file.
v0.0.1 — 2025-01-15
- Paunang paglabas.
- CAMT.053 parser (
CamtParser) para sa ISO 20022 bank-to-customer statement. - Pandas DataFrame output.
- Basic XML security hardening (XXE protection, no_network).
Tingnan ang buong kasaysayan ng commit sa GitHub.