好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

一款使用AI来解析PDF的开源工具:gptpdf

一款使用AI来解析PDF的开源工具

只用293行代码,几乎完美地解析了排版、数学公式、表格、图片、图表等

方法:

1、使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记

2、使用视觉大模型(如 GPT-4o)进行解析,得到 markdown 文件

github:https://github.com/CosmosShadow/gptpdf

上一篇:

下一篇:


标签