Tổng quan
Bank Statement Parser là thư viện Python mã nguồn mở duy nhất phân tích bảy định dạng sao kê ngân hàng — bao gồm PDF qua pipeline LLM hybrid — với một API thống nhất. Các thư viện đơn định dạng (mt-940, ofxparse, pycamt) mỗi thư viện chỉ xử lý một định dạng. Các công cụ SaaS (Ocrolus, Parseur) cung cấp cloud OCR nhưng yêu cầu gửi dữ liệu ra bên ngoài và có chi phí $49–$1.000+/tháng.
Các lựa chọn thay thế mã nguồn mở
Thư viện đơn định dạng
Hầu hết các trình phân tích sao kê ngân hàng mã nguồn mở chỉ xử lý một định dạng. Nếu cần nhiều định dạng, bạn phải cài đặt và duy trì các thư viện riêng biệt với API, schema đầu ra, và chu kỳ cập nhật khác nhau.
| Thư viện | Định dạng | Đầu ra | Xác minh số dư | Xuất sổ cái | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 định dạng | Pipeline hybrid | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | Chỉ MT940 | Không | Đối tượng Python | Không | Không |
| ofxparse | Chỉ OFX | Không | Đối tượng Python | Không | Không |
| pycamt | Chỉ CAMT.053 | Không | Đối tượng Python | Không | Không |
| ofxtools | Chỉ OFX v1/v2 | Không | Đối tượng Python | Không | Không |
So với pyiso20022
pyiso20022 tạo các dataclass Python từ danh mục schema ISO 20022 đầy đủ. Đây là bộ công cụ ISO 20022 đa mục đích để làm việc với các thông báo PACS, PAIN, CAMT và ADMI.
Bank Statement Parser được xây dựng chuyên dụng để phân tích sao kê ngân hàng thành DataFrames với các tính năng production:
| Tính năng | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Mục đích | Phân tích sao kê + trích xuất + xuất dữ liệu | Bộ công cụ schema ISO 20022 |
| Đầu ra | pandas/Polars DataFrames | Python dataclasses |
| Định dạng | 7 (bao gồm PDF, không phải ISO) | Chỉ ISO 20022 |
| Hỗ trợ PDF | Pipeline hybrid (deterministic + LLM + vision) | Không |
| Xác minh số dư | Golden Rule + đa tiền tệ | Không |
| REST API | Tích hợp FastAPI | Không |
| Làm giàu dữ liệu | Phân loại bằng LLM | Không |
| Xuất sổ cái | hledger + beancount | Không |
| Streaming | Có (bộ nhớ giới hạn) | Không |
| Ẩn danh PII | Tích hợp sẵn | Không |
| Chống trùng lặp | Hash giao dịch idempotent | Không |
| CLI | Có | Không |
Sử dụng pyiso20022 nếu bạn cần làm việc với danh mục thông báo ISO 20022 đầy đủ. Sử dụng Bank Statement Parser nếu bạn cần phân tích sao kê ngân hàng thành dữ liệu có cấu trúc để phân tích, đối chiếu, hoặc báo cáo.
Các lựa chọn thay thế SaaS
Các công cụ SaaS như Ocrolus, Parseur và Sensible cung cấp phân tích sao kê ngân hàng dưới dạng dịch vụ cloud. Họ thường sử dụng OCR để xử lý PDF quét và hỗ trợ hàng trăm định dạng riêng theo ngân hàng.
| Tính năng | Bank Statement Parser | Công cụ SaaS |
|---|---|---|
| Bảo mật dữ liệu | 100% cục bộ (LLM qua Ollama) | Dữ liệu gửi lên cloud |
| Chi phí | Miễn phí (Apache 2.0) | $49–$1.000+/tháng (tính đến Q1 2026) |
| Định dạng | 7 (có cấu trúc + PDF) | Hàng trăm (qua OCR) |
| Hỗ trợ PDF | Có — pipeline hybrid (deterministic + LLM + vision) | Có (cloud OCR) |
| Xác minh số dư | Golden Rule (tự động) | Thủ công / hạn chế |
| Độ trễ | <2 ms (có cấu trúc), vài giây (PDF+LLM) | 1-30 giây |
| Thông lượng | 27.000+ tx/giây (có cấu trúc) | API giới hạn tốc độ |
| REST API | Tích hợp FastAPI | Độc quyền |
| Xuất sổ cái | hledger + beancount | Không |
| Phụ thuộc nhà cung cấp | Không | Có |
| Tuân thủ | Xử lý cục bộ, SBOM | Tùy nhà cung cấp |
Trình phân tích dựa trên LLM
Ngày càng có nhiều công cụ (Inscribe, Unstract, Mozilla.ai blueprints) sử dụng mô hình ngôn ngữ lớn để phân tích sao kê ngân hàng, bao gồm cả PDF quét. Khi Chase thiết kế lại định dạng sao kê khách hàng vào cuối năm 2025, các trình phân tích dựa trên mẫu bị lỗi trong khi trình phân tích LLM tự động thích ứng.
Bank Statement Parser hiện đã tích hợp pipeline LLM hybrid riêng (v0.0.5+) chạy hoàn toàn cục bộ qua Ollama. Nó kết hợp ưu điểm của cả hai phương pháp:
- Định dạng có cấu trúc (XML, CSV, OFX, MT940): Phân tích xác định — độ chính xác 100%, độ trễ dưới mili giây, không tốn chi phí LLM.
- Sao kê PDF: Định tuyến ba đường dẫn (trích xuất bảng xác định -> text-LLM -> vision-LLM) với tự động xác minh Golden Rule để phát hiện lỗi trích xuất.
Khác với các trình phân tích LLM chỉ dùng cloud, pipeline hybrid của Bank Statement Parser:
- Chạy 100% cục bộ (Ollama) — không có dữ liệu rời khỏi máy bạn.
- Xác minh mọi kết quả trích xuất bằng xác minh số dư (Golden Rule).
- Hỗ trợ chế độ xem xét tương tác cho các sai lệch được gắn cờ.
- Tạo hash giao dịch idempotent cho nhập dữ liệu gia tăng an toàn.
Khi nào nên chọn trình phân tích LLM SaaS thay vì Bank Statement Parser: Bạn nhận sao kê từ hàng trăm ngân hàng với bố cục PDF rất khác nhau và cần khả năng xử lý sẵn có mà không cần chạy hạ tầng cục bộ.
Khi nào nên chọn Bank Statement Parser: Bạn cần xử lý cục bộ để tuân thủ. Bạn cần xác minh số dư. Bạn cần xuất sổ cái. Bạn muốn không tốn chi phí liên tục.
Phương pháp benchmark: Số liệu hiệu suất đo trên Apple M2, Python 3.12, sử dụng tệp CAMT.053 5.000 giao dịch (2,1 MB). Kết quả trung bình trên 100 lần chạy. Tái tạo cục bộ: python -m bankstatementparser.bench. Độ trễ SaaS dựa trên tài liệu API công bố tính đến tháng 4/2026.
Xem các trường hợp sử dụng thực tế ❯ | Lập kế hoạch chuyển đổi MT940-sang-CAMT ❯