Parsr实用文档清理解析和提取工具: 从文档到数据,一步到位!
Parsr 是一个小巧实用的文档(图像,pdf)清理,解析和提取的工具,可为数据科学家和开发者生成随时可用且整理完成的数据。
它为用户提供了结构化且标记完全的信息集,适用于包括数据输入和文档分析自动化,存档等即用型应用程序。
目前 Parsr 可以执行:
- 文档层次结构再生-单词、行和段落
- 标题检测
- 表检测重建
- 列表检测
- 文字顺序检测
- 命名实体识别(日期,百分比等)
- 键值对检测(用于提取特定的基于表单的条目)
- 页码检测
- 页眉页脚检测
- 链接检测
- 去除空白
图像(.JPG,.PNG,.TIFF 等)或者 PDF 文件解析提取,生成以下输出格式:
- JSON
- Markdown
- Text
- CSV(用于表格)或 Pandas Dataframes
关于 Parsr 的使用配置指南请参见 https://github.com/axa-group/Parsr