ติดตามการพัฒนาตัวแยกวิเคราะห์ใบแจ้งยอดจากธนาคาร สมัครสมาชิกผ่าน RSS หรือดู ที่เก็บ GitHub สำหรับการแจ้งเตือนการเปิดตัว
v0.0.8 — 2026-04-11 (Latest) — "Full Platform"
- Multi-currency balance verification —
verify_balance_multi_currency()groups by currency, runs Golden Rule per group. - hledger + beancount export —
to_hledger()andto_beancount()inbankstatementparser.export. - Bulk directory scanner —
scan_and_ingest()scans folder trees, deduplicates across batch. - Account mapping rules —
AccountMapperwith ordered regex rules from JSON config. - REST API — FastAPI wrapper with
/ingestand/healthendpoints ([api]extra).
v0.0.7 — 2026-04-08 — "Universal Vision"
- Direct Ollama bridge (
ollama_direct_completion) — bypasses LiteLLM long-prompt hang. - Strip mode (
VisionExtractor.strip_rows=True) — splits dense pages into overlapping bands for small local models. - Recommended vision model changed from
llavatominicpm-v.
v0.0.6 — 2026-04-08 — "Intelligence Layer"
- Dropped Python 3.9 support (now 3.10-3.14).
- Enrichment module (
Categorizer,EnrichedTransaction,DEFAULT_CATEGORY_SCHEMA). - Interactive review mode with
--type reviewCLI command. - Per-row bounding box extraction (
Transaction.source_bbox).
v0.0.5 — 2026-04-08 — "Universal Extraction"
- Hybrid PDF pipeline (
smart_ingest()) with deterministic/text-LLM/vision-LLM routing. LLMExtractorfor digital PDFs via LiteLLM.VisionExtractorfor scanned PDFs via multimodal vision models.- Golden Rule balance verification (
opening + credits - debits == closing). - Idempotent deduplication via
transaction_hash(MD5 fingerprint).
v0.0.4 — 15-03-2569 (ล่าสุด)
- เพิ่มการแยกวิเคราะห์ไฟล์แบบขนานด้วย
parse_files_parallel()โดยใช้ ProcessPoolExecutor - เพิ่มการสตรีมที่แท้จริงสำหรับไฟล์ PAIN.001 ขนาดใหญ่ (50 MB+) พร้อมหน่วยความจำแบบจำกัด
- การเพิ่มประสิทธิภาพการทำงาน: ขณะนี้ปริมาณงาน CAMT เกิน 27,000 tx/s, PAIN.001 เกิน 52,000 tx/s
- เพิ่มแล้ว
Deduplicatorคลาสสำหรับการตรวจจับรายการที่ซ้ำกันทุกประการและการแข่งขันที่ต้องสงสัยด้วยคะแนนความเชื่อมั่น - เพิ่มแล้ว
from_string()และfrom_bytes()วิธีการแยกวิเคราะห์ในหน่วยความจำโดยไม่มีดิสก์ I/O - เพิ่มแล้ว
iter_secure_xml_entries()เพื่อการประมวลผลไฟล์ ZIP ที่ปลอดภัย - ขยาย CI พร้อมการบังคับใช้เกณฑ์ประสิทธิภาพ
v0.0.3 — 20-11-2025
- เพิ่มการสนับสนุนตัวแยกวิเคราะห์ CSV, OFX, QFX และ MT940
- เพิ่มการตรวจจับรูปแบบอัตโนมัติด้วย
detect_statement_format()และcreate_parser(). - เพิ่มการแก้ไข PII (เปิดโดยค่าเริ่มต้นในโหมด CLI และสตรีมมิ่ง)
- เพิ่มตัวช่วยส่งออกสำหรับ CSV, JSON และ Excel
- เพิ่มการรองรับ Polars DataFrame ซึ่งเป็นอุปกรณ์เสริม
- ขยายชุดการทดสอบเป็น 718 การทดสอบโดยครอบคลุมสาขา 100%
v0.0.2 — 10-06-2025
- เพิ่มตัวแยกวิเคราะห์ PAIN.001 (
Pain001Parser) สำหรับไฟล์เริ่มต้นการโอนเครดิต ISO 20022 - เพิ่มอินเทอร์เฟซ CLI (
python -m bankstatementparser.cli). - เพิ่มโหมดสตรีมมิ่งด้วย
parse_streaming(). - เพิ่มการตรวจสอบอินพุตและการจำกัดขนาดไฟล์
v0.0.1 — 15-01-2025
- การเปิดตัวครั้งแรก
- ตัวแยกวิเคราะห์ CAMT.053 (
CamtParser) สำหรับใบแจ้งยอดระหว่างธนาคารกับลูกค้า ISO 20022 - เอาต์พุต DataFrame ของแพนด้า
- การเสริมความปลอดภัย XML ขั้นพื้นฐาน (การป้องกัน XXE, no_network)
ดูประวัติการคอมมิตฉบับเต็มได้ที่ GitHub.