Огляд
Bank Statement Parser — це єдина бібліотека Python з відкритим кодом, яка аналізує сім форматів банківських виписок — включно з PDF через гібридний LLM pipeline — за допомогою єдиного API. Одноформатні бібліотеки (mt-940, ofxparse, pycamt) обробляють по одному формату. SaaS-інструменти (Ocrolus, Parseur) пропонують хмарний OCR, але вимагають надсилання даних назовні та коштують $49–$1 000+/місяць.
Альтернативи з відкритим кодом
Одноформатні бібліотеки
Більшість парсерів банківських виписок з відкритим кодом працюють лише з одним форматом. Якщо вам потрібно кілька форматів, доведеться встановлювати та підтримувати окремі бібліотеки з різними API, схемами виводу та циклами оновлень.
| Бібліотека | Формати | Вивід | Перевірка балансу | Експорт у бухгалтерію | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 форматів | Гібридний pipeline | pandas DataFrame | Золоте правило | hledger, beancount |
| mt-940 (WoLpH) | Тільки MT940 | Ні | Об'єкти Python | Ні | Ні |
| ofxparse | Тільки OFX | Ні | Об'єкти Python | Ні | Ні |
| pycamt | Тільки CAMT.053 | Ні | Об'єкти Python | Ні | Ні |
| ofxtools | Тільки OFX v1/v2 | Ні | Об'єкти Python | Ні | Ні |
Порівняння з pyiso20022
pyiso20022 генерує Python dataclasses з повного каталогу схем ISO 20022. Це універсальний набір інструментів ISO 20022 для роботи з повідомленнями PACS, PAIN, CAMT та ADMI.
Bank Statement Parser створений спеціально для аналізу банківських виписок у DataFrames з продакшен-функціями:
| Функція | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Призначення | Аналіз виписок + витягування + експорт | Набір інструментів ISO 20022 |
| Вивід | pandas/Polars DataFrames | Python dataclasses |
| Формати | 7 (включно з PDF та не-ISO) | Тільки ISO 20022 |
| Підтримка PDF | Гібридний pipeline (детерміністичний + LLM + vision) | Ні |
| Перевірка балансу | Золоте правило + мультивалютність | Ні |
| REST API | Вбудований FastAPI | Ні |
| Збагачення | Категоризація через LLM | Ні |
| Експорт у бухгалтерію | hledger + beancount | Ні |
| Streaming | Так (обмежена пам'ять) | Ні |
| Приховування персональних даних | Вбудоване | Ні |
| Дедуплікація | Ідемпотентні hash транзакцій | Ні |
| CLI | Так | Ні |
Використовуйте pyiso20022, якщо вам потрібно працювати з повним каталогом повідомлень ISO 20022. Використовуйте Bank Statement Parser, якщо потрібно аналізувати банківські виписки у структуровані дані для аналітики, звірки або звітності.
SaaS-альтернативи
SaaS-інструменти, такі як Ocrolus, Parseur та Sensible, пропонують аналіз банківських виписок як хмарний сервіс. Вони зазвичай використовують OCR для сканованих PDF та підтримують сотні банківських форматів.
| Функція | Bank Statement Parser | SaaS-інструменти |
|---|---|---|
| Конфіденційність даних | 100% локально (LLM через Ollama) | Дані надсилаються в хмару |
| Вартість | Безкоштовно (Apache 2.0) | $49–$1 000+/місяць (станом на Q1 2026) |
| Формати | 7 (структуровані + PDF) | Сотні (через OCR) |
| Підтримка PDF | Так — гібридний pipeline (детерміністичний + LLM + vision) | Так (хмарний OCR) |
| Перевірка балансу | Золоте правило (автоматична) | Ручна / обмежена |
| Затримка | <2 мс (структуровані), секунди (PDF+LLM) | 1–30 секунд |
| Пропускна здатність | 27 000+ tx/s (структуровані) | Обмежена API |
| REST API | Вбудований FastAPI | Пропрієтарний |
| Експорт у бухгалтерію | hledger + beancount | Ні |
| Прив'язка до постачальника | Відсутня | Так |
| Комплаєнс | Локальна обробка, SBOM | Залежить від постачальника |
Парсери на основі LLM
Дедалі більше інструментів (Inscribe, Unstract, Mozilla.ai blueprints) використовують великі мовні моделі для аналізу банківських виписок, зокрема сканованих PDF. Коли наприкінці 2025 року Chase змінив формат споживчої виписки, шаблонні парсери зламалися, а LLM-парсери адаптувалися автоматично.
Bank Statement Parser тепер має власний гібридний LLM pipeline (v0.0.5+), який працює повністю локально через Ollama. Він поєднує найкраще з обох підходів:
- Структуровані формати (XML, CSV, OFX, MT940): Детерміністичний аналіз — 100% точність, субмілісекундна затримка, нульові витрати на LLM.
- PDF-виписки: Тришлякова маршрутизація (детерміністичне витягування таблиць → текстовий LLM → vision LLM) з автоматичною перевіркою Золотим правилом для виявлення помилок витягування.
На відміну від суто хмарних LLM-парсерів, гібридний pipeline Bank Statement Parser:
- Працює 100% локально (Ollama) — жодні дані не залишають вашу машину.
- Перевіряє кожне витягування через перевірку балансу (Золоте правило).
- Підтримує інтерактивний режим перегляду для виявлених розбіжностей.
- Створює ідемпотентні hash транзакцій для безпечного інкрементального завантаження.
Коли обрати чистий SaaS LLM-парсер замість Bank Statement Parser: ви отримуєте виписки від сотень банків із дуже різними PDF-макетами і потребуєте покриття «з коробки» без локальної інфраструктури.
Коли обрати Bank Statement Parser: вам потрібна локальна обробка для комплаєнсу. Ви хочете перевірку балансу. Вам потрібен експорт у бухгалтерію. Ви хочете нульові постійні витрати.
Методологія тестування: Показники продуктивності виміряно на Apple M2, Python 3.12, на файлі CAMT.053 із 5 000 транзакціями (2,1 МБ). Результати усереднені за 100 запусків. Відтворити локально: python -m bankstatementparser.bench. Затримка SaaS — за опублікованою документацією API станом на квітень 2026 року.
Перегляньте реальні сценарії використання ❯ | Сплануйте міграцію з MT940 на CAMT ❯