ArXiv 170万篇论文数据集上线Kaggle
学术圈的朋友对ArXiv肯定都不陌生。在将近30年的时间里,ArXiv通过公开访问学术文章为公众和研究社区提供了一个更高效的学术成果沟通平台,从物理学到计算机科学的许多子学科,以及介于两者之间的所有内容,包括数学,统计学,电气工程,定量生物学,和经济学。
在当今全球面临独特挑战的时代,从数据中有效提取见解至关重要。而在数据圈,Kaggle是数据科学家和机器学习工程师寻求有趣的数据集的最大宝藏之地:这里有各种notebook和竞赛,相关从业者和研究人员可以利用Kaggle提供的数据探索工具,轻松地与他人共享相关脚本和输出。
那么,二者结合会产生什么化学效应呢?
为帮助使arXiv更加易于访问,aixiv近日宣布,向Kaggle提供机器可读的arXiv数据集!
链接:https://www.kaggle.com/Cornell-University/arxiv
目前,arXiv开放给kaggle的内容非常丰富,包括170万篇文章,其相关功能包括文章标题,作者,类别,摘要,全文PDF等。
该数据集数据量级高达1.1TB,并且还会持续更新。包含的内容如下:
- id:arXiv ID;
- submitter;
- authors;
- title;
- comments;
- journal-ref;
- doi;
- abstract;
- categories;
- versions。
aixiv称,希望启用新的用例,以促成更丰富的机器学习技术的探索,这些技术将多模式功能结合到趋势分析,纸张推荐器引擎,类别预测,共引网络,知识图构建和语义搜索界面等应用程序中。 “在Kaggle上拥有整个arXiv语料库,极大地增加了arXiv论文的潜力,” 在官宣文章中,arXiv执行董事Eleonora Presani说。“通过在Kaggle上提供数据集,我们超越了人类通过阅读所有这些文章可以学到的知识,并且以机器可读的格式将arXiv背后的数据和信息公开提供给公众。”[大数据文摘]