Parsr实用文档清理解析和提取工具: 从文档到数据,一步到位!

Parsr 是一个小巧实用的文档(图像,pdf)清理,解析和提取的工具,可为数据科学家和开发者生成随时可用且整理完成的数据。

它为用户提供了结构化且标记完全的信息集,适用于包括数据输入和文档分析自动化,存档等即用型应用程序。

目前 Parsr 可以执行:

 • 文档层次结构再生-单词、行和段落
 • 标题检测
 • 表检测重建
 • 列表检测
 • 文字顺序检测
 • 命名实体识别(日期,百分比等)
 • 键值对检测(用于提取特定的基于表单的条目)
 • 页码检测
 • 页眉页脚检测
 • 链接检测
 • 去除空白

图像(.JPG,.PNG,.TIFF 等)或者 PDF 文件解析提取,生成以下输出格式:

 • JSON
 • Markdown
 • Text
 • CSV(用于表格)或 Pandas Dataframes
 • PDF

关于 Parsr 的使用配置指南请参见 https://github.com/axa-group/Parsr

上一篇:

下一篇:


标签