Обзор
Bank Statement Parser — единственная библиотека Python с открытым исходным кодом, которая разбирает семь форматов банковских выписок, включая PDF через гибридный LLM-pipeline, с помощью единого API. Одноформатные библиотеки (mt-940, ofxparse, pycamt) обрабатывают по одному формату каждая. SaaS-инструменты (Ocrolus, Parseur) предлагают облачный OCR, но требуют отправки данных на внешний сервер и стоят $49–$1 000+/мес.
Альтернативы с открытым исходным кодом
Одноформатные библиотеки
Большинство парсеров банковских выписок с открытым кодом работают с одним форматом. Если вам нужно несколько форматов, придётся устанавливать и поддерживать отдельные библиотеки с разными API, схемами вывода и циклами обновлений.
| Библиотека | Форматы | Вывод | Проверка баланса | Экспорт в бухгалтерию | |
|---|---|---|---|---|---|
| Bank Statement Parser | 7 форматов | Гибридный pipeline | pandas DataFrame | Золотое правило | hledger, beancount |
| mt-940 (WoLpH) | Только MT940 | Нет | Объекты Python | Нет | Нет |
| ofxparse | Только OFX | Нет | Объекты Python | Нет | Нет |
| pycamt | Только CAMT.053 | Нет | Объекты Python | Нет | Нет |
| ofxtools | Только OFX v1/v2 | Нет | Объекты Python | Нет | Нет |
Сравнение с pyiso20022
pyiso20022 генерирует dataclasses Python из полного каталога схем ISO 20022. Это универсальный инструментарий ISO 20022 для работы с сообщениями PACS, PAIN, CAMT и ADMI.
Bank Statement Parser создан именно для разбора банковских выписок в DataFrames с производственными возможностями:
| Возможность | Bank Statement Parser | pyiso20022 |
|---|---|---|
| Назначение | Разбор выписок + извлечение + экспорт | Инструментарий схем ISO 20022 |
| Вывод | DataFrames pandas/Polars | Dataclasses Python |
| Форматы | 7 (включая PDF и не-ISO) | Только ISO 20022 |
| Поддержка PDF | Гибридный pipeline (детерминированный + LLM + vision) | Нет |
| Проверка баланса | Золотое правило + мультивалютная | Нет |
| REST API | Встроенный FastAPI | Нет |
| Обогащение данных | Категоризация на основе LLM | Нет |
| Экспорт в бухгалтерию | hledger + beancount | Нет |
| Streaming | Да (ограниченная память) | Нет |
| Маскирование PII | Встроенное | Нет |
| Дедупликация | Идемпотентные hash транзакций | Нет |
| CLI | Да | Нет |
Используйте pyiso20022, если вам нужен полный каталог сообщений ISO 20022. Используйте Bank Statement Parser, если вам нужно разобрать банковские выписки в структурированные данные для анализа, сверки или отчётности.
SaaS-альтернативы
SaaS-инструменты Ocrolus, Parseur и Sensible предлагают разбор банковских выписок как облачный сервис. Они обычно используют OCR для обработки сканированных PDF и поддерживают сотни банковских форматов.
| Возможность | Bank Statement Parser | SaaS-инструменты |
|---|---|---|
| Конфиденциальность данных | 100% локально (LLM через Ollama) | Данные отправляются в облако |
| Стоимость | Бесплатно (Apache 2.0) | $49–$1 000+/мес. (по состоянию на Q1 2026) |
| Форматы | 7 (структурированные + PDF) | Сотни (через OCR) |
| Поддержка PDF | Да — гибридный pipeline (детерминированный + LLM + vision) | Да (облачный OCR) |
| Проверка баланса | Золотое правило (автоматическая) | Ручная / ограниченная |
| Задержка | <2 мс (структурированные), секунды (PDF+LLM) | 1–30 секунд |
| Пропускная способность | 27 000+ транзакций/с (структурированные) | Ограничена API |
| REST API | Встроенный FastAPI | Проприетарный |
| Экспорт в бухгалтерию | hledger + beancount | Нет |
| Привязка к вендору | Нет | Да |
| Комплаенс | Локальная обработка, SBOM | Зависит от провайдера |
Парсеры на основе LLM
Всё больше инструментов (Inscribe, Unstract, проекты Mozilla.ai) используют большие языковые модели для разбора банковских выписок, включая сканированные PDF. Когда Chase в конце 2025 года обновил формат потребительских выписок, шаблонные парсеры сломались, а LLM-парсеры адаптировались автоматически.
Bank Statement Parser теперь включает собственный гибридный LLM-pipeline (v0.0.5+), который работает полностью локально через Ollama. Он объединяет лучшее из обоих подходов:
- Структурированные форматы (XML, CSV, OFX, MT940): детерминированный разбор — 100% точность, задержка менее миллисекунды, нулевые затраты на LLM.
- PDF-выписки: маршрутизация по трём путям (детерминированное извлечение таблиц -> Text-LLM -> Vision-LLM) с автоматической проверкой по Золотому правилу для выявления ошибок извлечения.
В отличие от облачных LLM-парсеров, гибридный pipeline Bank Statement Parser:
- Работает 100% локально (Ollama) — данные не покидают вашу машину.
- Проверяет каждое извлечение через проверку баланса (Золотое правило).
- Поддерживает интерактивный режим просмотра для выявленных расхождений.
- Создаёт идемпотентные hash транзакций для безопасной инкрементальной загрузки.
Когда выбрать SaaS LLM-парсеры вместо Bank Statement Parser: вы получаете выписки от сотен банков с совершенно разными PDF-форматами и вам нужна готовая поддержка без локальной инфраструктуры.
Когда выбрать Bank Statement Parser: вам нужна локальная обработка для комплаенса. Вам важна проверка баланса. Вам нужен экспорт в бухгалтерию. Вы хотите нулевые текущие расходы.
Методология бенчмарка: показатели производительности измерены на Apple M2, Python 3.12, файл CAMT.053 на 5 000 транзакций (2,1 МБ). Результаты усреднены по 100 запускам. Воспроизведите локально: python -m bankstatementparser.bench. Задержка SaaS основана на опубликованной документации API по состоянию на апрель 2026 г.
Смотрите реальные сценарии использования ❯ | Спланируйте миграцию MT940-to-CAMT ❯