ওভারভিউ
Bank Statement Parser একমাত্র ওপেন-সোর্স পাইথন লাইব্রেরি যা সাতটি ব্যাঙ্ক স্টেটমেন্ট ফর্ম্যাট — hybrid LLM pipeline-এর মাধ্যমে PDF সহ — একটি ইউনিফাইড API দিয়ে পার্স করে। একক-ফর্ম্যাট লাইব্রেরি (mt-940, ofxparse, pycamt) প্রতিটি একটি ফর্ম্যাট পরিচালনা করে। SaaS টুল (Ocrolus, Parseur) cloud OCR অফার করে কিন্তু বাইরে ডেটা পাঠাতে হয় এবং খরচ $49–$1,000+/মাস।
ওপেন-সোর্স বিকল্প
একক-ফর্ম্যাট লাইব্রেরি
বেশিরভাগ ওপেন-সোর্স ব্যাঙ্ক স্টেটমেন্ট পার্সার শুধুমাত্র একটি ফর্ম্যাট পরিচালনা করে। আপনার একাধিক ফর্ম্যাট প্রয়োজন হলে, বিভিন্ন API, আউটপুট স্কিমা এবং আপডেট চক্র সহ পৃথক লাইব্রেরি ইনস্টল ও বজায় রাখতে হবে।
| লাইব্রেরি | ফর্ম্যাট | আউটপুট | ব্যালেন্স যাচাই | Ledger Export | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 ফর্ম্যাট | Hybrid pipeline | pandas DataFrame | Golden Rule | hledger, beancount |
| mt-940 (WoLpH) | শুধু MT940 | না | Python objects | না | না |
| ofxparse | শুধু OFX | না | Python objects | না | না |
| pycamt | শুধু CAMT.053 | না | Python objects | না | না |
| ofxtools | শুধু OFX v1/v2 | না | Python objects | না | না |
বনাম pyiso20022
pyiso20022 সম্পূর্ণ ISO 20022 স্কিমা ক্যাটালগ থেকে Python dataclass তৈরি করে। এটি PACS, PAIN, CAMT, এবং ADMI বার্তার সাথে কাজ করার জন্য একটি সাধারণ-উদ্দেশ্য ISO 20022 টুলকিট।
Bank Statement Parser প্রোডাকশন বৈশিষ্ট্য সহ ব্যাঙ্ক স্টেটমেন্ট DataFrame-এ পার্স করার জন্য উদ্দেশ্য-নির্মিত:
| বৈশিষ্ট্য | Bank Statement Parser | pyiso20022 |
|---|---|---|
| উদ্দেশ্য | স্টেটমেন্ট পার্সিং + extraction + এক্সপোর্ট | ISO 20022 স্কিমা টুলকিট |
| আউটপুট | pandas/Polars DataFrame | Python dataclass |
| ফর্ম্যাট | 7 (PDF, নন-ISO সহ) | শুধুমাত্র ISO 20022 |
| PDF সাপোর্ট | Hybrid pipeline (deterministic + LLM + vision) | না |
| ব্যালেন্স যাচাই | Golden Rule + multi-currency | না |
| REST API | বিল্ট-ইন FastAPI | না |
| Enrichment | LLM-চালিত categorisation | না |
| Ledger export | hledger + beancount | না |
| Streaming | হ্যাঁ (সীমাবদ্ধ মেমরি) | না |
| PII রিডাকশন | বিল্ট-ইন | না |
| Deduplication | Idempotent transaction hash | না |
| CLI | হ্যাঁ | না |
আপনি সম্পূর্ণ ISO 20022 বার্তা ক্যাটালগের সাথে কাজ করতে চাইলে pyiso20022 ব্যবহার করুন। বিশ্লেষণ, রিকনসিলিয়েশন বা রিপোর্টিংয়ের জন্য ব্যাঙ্ক স্টেটমেন্ট স্ট্রাকচার্ড ডেটায় পার্স করতে Bank Statement Parser ব্যবহার করুন।
SaaS বিকল্প
Ocrolus, Parseur এবং Sensible-এর মতো SaaS টুল ক্লাউড সেবা হিসেবে ব্যাঙ্ক স্টেটমেন্ট পার্সিং অফার করে। তারা সাধারণত স্ক্যান করা PDF পরিচালনা করতে ও শত শত ব্যাঙ্ক-নির্দিষ্ট ফর্ম্যাট সমর্থন করতে OCR ব্যবহার করে।
| বৈশিষ্ট্য | Bank Statement Parser | SaaS টুল |
|---|---|---|
| ডেটা গোপনীয়তা | 100% স্থানীয় (LLM Ollama-র মাধ্যমে) | ক্লাউডে ডেটা পাঠানো হয় |
| খরচ | বিনামূল্যে (Apache 2.0) | $49–$1,000+/মাস (Q1 2026 অনুযায়ী) |
| ফর্ম্যাট | 7 (স্ট্রাকচার্ড + PDF) | শত শত (OCR এর মাধ্যমে) |
| PDF সাপোর্ট | হ্যাঁ — hybrid pipeline (deterministic + LLM + vision) | হ্যাঁ (cloud OCR) |
| ব্যালেন্স যাচাই | Golden Rule (স্বয়ংক্রিয়) | ম্যানুয়াল / সীমিত |
| লেটেন্সি | <2 ms (স্ট্রাকচার্ড), সেকেন্ড (PDF+LLM) | 1-30 সেকেন্ড |
| থ্রুপুট | 27,000+ tx/সেকেন্ড (স্ট্রাকচার্ড) | API রেট-সীমিত |
| REST API | বিল্ট-ইন FastAPI | প্রোপ্রাইটারি |
| Ledger export | hledger + beancount | না |
| ভেন্ডর লক-ইন | কিছুই নয় | হ্যাঁ |
| কমপ্লায়েন্স | স্থানীয় প্রক্রিয়াকরণ, SBOM | প্রদানকারী অনুযায়ী ভিন্ন |
LLM-ভিত্তিক পার্সার
ক্রমবর্ধমান সংখ্যক টুল (Inscribe, Unstract, Mozilla.ai blueprints) স্ক্যান করা PDF সহ ব্যাঙ্ক স্টেটমেন্ট পার্স করতে large language model ব্যবহার করে। Chase যখন 2025 সালের শেষে তাদের ভোক্তা স্টেটমেন্ট ফর্ম্যাট পুনরায় ডিজাইন করে, template-ভিত্তিক পার্সার ভেঙে যায় কিন্তু LLM পার্সার স্বয়ংক্রিয়ভাবে অভিযোজিত হয়।
Bank Statement Parser এখন নিজস্ব hybrid LLM pipeline অন্তর্ভুক্ত করে (v0.0.5+) যা সম্পূর্ণ স্থানীয়ভাবে Ollama-র মাধ্যমে চলে। এটি উভয় পদ্ধতির সেরাটি একত্রিত করে:
- স্ট্রাকচার্ড ফর্ম্যাট (XML, CSV, OFX, MT940): নির্ধারক পার্সিং — 100% নির্ভুলতা, সাব-মিলিসেকেন্ড লেটেন্সি, শূন্য LLM খরচ।
- PDF স্টেটমেন্ট: তিন-পথ রাউটিং (deterministic table extraction → text-LLM → vision-LLM) স্বয়ংক্রিয় Golden Rule যাচাই সহ extraction ত্রুটি ধরতে।
Cloud-only LLM পার্সারের বিপরীতে, Bank Statement Parser-এর hybrid pipeline:
- 100% স্থানীয়ভাবে চলে (Ollama) — কোনো ডেটা আপনার মেশিন ছাড়ে না।
- প্রতিটি extraction ব্যালেন্স যাচাই (Golden Rule) দিয়ে verify করে।
- চিহ্নিত অসঙ্গতির জন্য interactive review মোড সমর্থন করে।
- নিরাপদ ইনক্রিমেন্টাল ইনজেশনের জন্য idempotent transaction hash তৈরি করে।
কখন Bank Statement Parser-এর চেয়ে pure SaaS LLM পার্সার বেছে নেবেন: আপনি ব্যাপকভাবে ভিন্ন PDF লেআউট সহ শত শত ব্যাঙ্ক থেকে স্টেটমেন্ট পান এবং স্থানীয় infrastructure না চালিয়ে out-of-the-box কভারেজ চান।
কখন Bank Statement Parser বেছে নেবেন: কমপ্লায়েন্সের জন্য আপনার স্থানীয় প্রক্রিয়াকরণ দরকার। আপনি ব্যালেন্স যাচাই চান। আপনার ledger export প্রয়োজন। আপনি শূন্য চলমান খরচ চান।
বেঞ্চমার্ক পদ্ধতি: Apple M2, Python 3.12-এ 5,000-লেনদেন CAMT.053 ফাইল (2.1 MB) ব্যবহার করে পারফরম্যান্স পরিসংখ্যান পরিমাপ করা হয়েছে। ফলাফল 100 রান জুড়ে গড়। স্থানীয়ভাবে পুনরুত্পাদন করুন: python -m bankstatementparser.bench। SaaS লেটেন্সি এপ্রিল 2026 পর্যন্ত প্রকাশিত API ডকুমেন্টেশনের উপর ভিত্তি করে।
বাস্তব ব্যবহারের ক্ষেত্র দেখুন ❯ | আপনার MT940-থেকে-CAMT মাইগ্রেশন পরিকল্পনা করুন ❯