ArXiv 170万篇论文数据集上线Kaggle

xiaoyong 8月 08, 2020 2.48w 浏览 0

学术圈的朋友对ArXiv肯定都不陌生。在将近30年的时间里，ArXiv通过公开访问学术文章为公众和研究社区提供了一个更高效的学术成果沟通平台，从物理学到计算机科学的许多子学科，以及介于两者之间的所有内容，包括数学，统计学，电气工程，定量生物学，和经济学。

在当今全球面临独特挑战的时代，从数据中有效提取见解至关重要。而在数据圈，Kaggle是数据科学家和机器学习工程师寻求有趣的数据集的最大宝藏之地：这里有各种notebook和竞赛，相关从业者和研究人员可以利用Kaggle提供的数据探索工具，轻松地与他人共享相关脚本和输出。

那么，二者结合会产生什么化学效应呢？

为帮助使arXiv更加易于访问，aixiv近日宣布，向Kaggle提供机器可读的arXiv数据集！

链接：https://www.kaggle.com/Cornell-University/arxiv

目前，arXiv开放给kaggle的内容非常丰富，包括170万篇文章，其相关功能包括文章标题，作者，类别，摘要，全文PDF等。

该数据集数据量级高达1.1TB，并且还会持续更新。包含的内容如下：

id：arXiv ID；
submitter；
authors；
title；
comments；
journal-ref；
doi；
abstract；
categories；
versions。

aixiv称，希望启用新的用例，以促成更丰富的机器学习技术的探索，这些技术将多模式功能结合到趋势分析，纸张推荐器引擎，类别预测，共引网络，知识图构建和语义搜索界面等应用程序中。 “在Kaggle上拥有整个arXiv语料库，极大地增加了arXiv论文的潜力，” 在官宣文章中，arXiv执行董事Eleonora Presani说。“通过在Kaggle上提供数据集，我们超越了人类通过阅读所有这些文章可以学到的知识，并且以机器可读的格式将arXiv背后的数据和信息公开提供给公众。”[大数据文摘]

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/5390.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

ArXiv 170万篇论文数据集上线Kaggle

文章推荐：

标签