v0.0.4(最新)
- 添加了并行文件解析
parse_files_parallel()使用 ProcessPoolExecutor。 - 为具有有限内存的大型 PAIN.001 文件 (50 MB+) 添加了真正的流式传输。
- 性能优化:CAMT 吞吐量现已超过 27,000 tx/s,PAIN.001 超过 52,000 tx/s。
- 添加
Deduplicator用于检测精确重复项和与置信度分数的可疑匹配的类。 - 添加
from_string()和from_bytes()无需磁盘 I/O 的内存解析方法。 - 添加
iter_secure_xml_entries()用于安全的 ZIP 存档处理。 - 具有性能阈值强制执行的扩展 CI。
v0.0.3
- 添加了 CSV、OFX、QFX 和 MT940 解析器支持。
- 添加了格式自动检测
detect_statement_format()和create_parser()。 - 添加了 PII 编辑(在 CLI 和流模式下默认启用)。
- 添加了 CSV、JSON 和 Excel 的导出帮助程序。
- 添加了可选的 Polars DataFrame 支持。
- 将测试套件扩展至 467 个测试,分支覆盖率为 100%。
v0.0.2
- 添加了 PAIN.001 解析器(
Pain001Parser) 用于 ISO 20022 学分转移启动文件。 - 添加了 CLI 界面(
python -m bankstatementparser.cli)。 - 添加了流媒体模式
parse_streaming()。 - 添加了输入验证和文件大小限制。
v0.0.1
- 初始版本。
- CAMT.053 解析器(
CamtParser) 适用于 ISO 20022 银行对客户报表。 - 大熊猫数据帧输出。
- 基本 XML 安全强化(XXE 保护、no_network)。
在 GitHub.