10万行主题标签新闻数据集

10万行主题标签新闻数据集

这是NewsCatcher小组:收集新闻文章并为其编制索引提供新闻API,以查找相关新闻数据。

数据集

Newscatcher小组针对8个不同的新闻主题收集了超过10万篇文章。

BUSINESS | 15000

ENTERTAINMENT | 15000

HEALTH | 15000

NATION | 15000

SCIENCE | 3774

SPORTS | 15000

TECHNOLOGY | 15000

WORLD | 15000

这些文章于2020年8月上半年发表。

除了3774,所有“主题”都有1.5万篇文章。SCIENCE这些文章由数千个不同的新闻网站发布。

其他有用的链接

newscatcher Py软件包-以编程方式从(几乎)任何网站收集标准化新闻。

pygooglenews-Google新闻具有Python库

在以下地方找到数据集:

上一篇:

下一篇:


标签