10万行主题标签新闻数据集

这是NewsCatcher小组:收集新闻文章并为其编制索引提供新闻API,以查找相关新闻数据。
数据集
Newscatcher小组针对8个不同的新闻主题收集了超过10万篇文章。
BUSINESS
| 15000
ENTERTAINMENT
| 15000
HEALTH
| 15000
NATION
| 15000
SCIENCE
| 3774
SPORTS
| 15000
TECHNOLOGY
| 15000
WORLD
| 15000
这些文章于2020年8月上半年发表。
除了3774,所有“主题”都有1.5万篇文章。SCIENCE
这些文章由数千个不同的新闻网站发布。
其他有用的链接
newscatcher Py软件包-以编程方式从(几乎)任何网站收集标准化新闻。
pygooglenews-Google新闻具有Python库
在以下地方找到数据集: