好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

全球在线发布的研究论文大型免费索引

一位美国技术专家发布了一个包含 1 亿多篇期刊文章中单词和短语的索引  General Index——其中包括了许多付费论文。 索引于 10 月 7 日发布可免费使用,包含超过 3550 亿个单词及相应论文中的句子片段。创建者 Carl Malamud 表示,此举是为了帮助科学家使用软件从已发表论文中收集见解,即使他们没有合法访问相关论文的权限。他在 Public Resource 的赞助下发布了这些文件,这是他在加州塞瓦斯托波尔创立的一家非营利性公司。

Malamud 的项目是他职业生涯中的最新冒险,他致力于发布锁定信息以供在线免费访问 – 通常面临法律挑战。他最初专注于发布政府制作的法律和金融信息。但最近他把注意力转向了开放科学文献。Malamud 希望用户能够将他们创建的任何搜索引擎提供给其他人。

Malamud 表示,索引不包含论文全文,只包含最多五个单词的句子片段,所以发布它不会违反出版商对重复使用付费文章的版权限制。但一位法律专家表示,出版商可能会首先质疑 Malamud 创建索引的合法性。早期访问过该索引的研究人员表示,这是帮助他们使用软件搜索文献的重大进展——这一过程被称为文本挖掘。计算机科学家已通过文本挖掘论文来建立文献中发现的基因、药物和化学物质的数据库,并以比人类阅读更快的速度探索论文的内容。但他们经常指出,出版商最终控制着他们工作的速度和范围,科学家只能挖掘开放访问的论文,或者他们(或其机构)订阅的论文。出版商表示,希望挖掘付费论文文本的研究人员需要他们的授权。尽管 Google Scholar 等免费搜索引擎已根据与出版商的协议,将付费论文的文本编入索引,但只允许用户使用某些类型的文本查询进行搜索,限制了自动搜索。Malamud 表示,这不能用更专业的搜索进行大规模的计算机化分析。获取更多前沿科技 研究进展 访问:https://byteclicks.com

全球在线发布的研究论文巨大免费索引

技术专家Carl Malamud

上一篇:

下一篇:


标签