好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

一种轻松提取和标记维基百科数据的标记工具

DataQA ( https://dataqa.ai ) 是一个为各种NLP任务(例如实体提取、实体链接等)搜索和文档标记工具。

工具开源的,并带有 elasticsearch 文本搜索引擎(可能是未来技术文章的主题),以及一个基于规则的引擎,用于使用 NLP 规则对文档进行预标记. 使用单个 pip 命令即可轻松安装。

尽管维基百科是世界上最大的人类知识库,但仍然很难处理它并为特定应用程序创建结构化数据集。由于 wiki 页面是长篇文章,因此将文本分成较小的文本块很重要。许多有趣的数据有时也会显示在表格中。使用 DataQA,您现在可以上传维基百科页面 url 列表,该工具将提取文章、进行处理甚至解析表格,然后您可以标记您想要的任何实体。你可以在这里找到一个教程。

获取更多前沿科技 研究进展 访问:https://byteclicks.com

上一篇:

下一篇:


标签