新算法搜索历史文件以识别重要人物
旧报纸提供了一个了解我们过去的窗口,而由纽约州立大学布法罗分校管理学院的一名研究人员开发的一种新算法正在帮助将这些历史文件变成有用的、可搜索的数据。
该算法发表在《决策支持系统》上,它可以从光学字符识别(OCR)产生的结果中找到人名并按重要性排序,光学字符识别是将扫描文件转换为文本的计算机化方法,通常比较杂乱。
众所周知,当运行OCR软件时,很多时候文本会出现乱码,对于旧报纸、书籍和杂志,问题可能来自油墨质量差、皱褶或撕裂的纸张,甚至是软件没有想到的不寻常的页面布局。
为了开发该算法,研究人员与纽约公共图书馆(NYPL)合作,分析了纽约市报纸《太阳报》在1894年11月和12月期间出版的14000多篇文章。纽约公共图书馆已经扫描了20多万页报纸,作为Chronicling America的一部分,Chronicling America是美国国家人文基金会和国会图书馆的一项倡议,该倡议正在努力开发一个1777年至1963年历史报纸的在线可搜索数据库。
他们的算法根据一些属性对人名的重要性进行排名,这些属性包括名字的上下文、名字前面的标题、文章的长度以及名字在文章中被提及的频率。
该算法仅从文本中学习这些属性–它不依赖维基百科或其他知识库等外部信息来源。但由于OCR文本是乱码,它无法确定这些属性对人名的排名有多有效。所以研究人员使用统计措施对许多数据属性进行建模,这有助于提供所需的姓名排名。
研究人员使用两组历史文章来测试他们的算法。一套是由OCR软件产生的原始文本,另一套是由纽约市的学童手动清理的,他们用这些文章来写当时当地著名人物的传记。
当与清理过的故事版本相比较时,排名算法能够对人名进行高度精确的排序,即使是在嘈杂的OCR文本中。
该过程对发现整个历史上的重要人物有广泛的意义。
今后,研究人员将扩大这项技术,以检查人们之间的关系,并建立起过去的社会网络。获取更多前沿科技 研究进展 访问:https://byteclicks.com
