好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

新方法RAMBO加速了对巨大DNA数据库的搜索,几分钟就可得到结果

美国莱斯大学的计算机科学家正在发送RAMBO去拯救基因组研究人员,这些研究人员有时要等待数天或数周才能从庞大的DNA数据库中获得搜索结果。

DNA测序是如此流行,基因组数据集的规模每两年翻一番,而搜索数据的工具却没有跟上。比较基因组DNA或研究导致COVID-19病毒等生物体进化的研究人员往往要等上几周,才能让软件对大型“宏基因组”数据库进行索引。这些数据库每个月都在变大,现在的测量单位是pb。

RAMBO是“重复合并bloom filter”的缩写,是一种可以将此类数据库的索引时间从几周缩短到几小时,搜索时间从几小时缩短到几秒的新方法。莱斯大学的计算机科学家上周在计算机械数据科学协会SIGMOD 2021年会议上介绍了RAMBO。

RAMBO的联合创始人Todd Treangen说:“使用传统方法在大型数据库中查询数百万条DNA序列,在大型计算集群上可能需要几个小时,在单个服务器上可能需要几周。”Todd Treangen是Rice的计算机科学家,他的实验室专门研究宏基因组学。“随着基因组数据库的规模继续以难以置信的速度增长,减少数据库索引时间以及查询时间至关重要。”

为了解决这个问题,Treangen与Rice的计算机科学家Anshumali Shrivastava,以及研究生Gaurav Gupta和Minghao Yan合作。Anshumali Shrivastava专注于创建让大数据和机器学习更快、更可扩展的算法,他们是关于RAMBO的同行评审会议论文的共同主要作者。

RAMBO使用的数据结构比最先进的基因组索引方法的查询时间要快得多,而且还有其他优点,比如易于并行化、零假阴性率和低假阳性率。

“RAMBO的搜索时间比现有方法快了35倍,”电子和计算机工程专业的博士生Gupta说。Gupta说,在使用一个170兆兆字节的微生物基因组数据集进行的实验中,RAMBO将索引时间从“在复杂的专用集群上的6周缩短到了在共享商品集群上的9小时”。

推荐阅读:

计算机科学硕士Yan说:“在如此庞大的档案中,RAMBO可以在几毫秒内搜索一个基因序列,甚至在100台机器组成的标准服务器上搜索不到几毫秒。”

RAMBO改进了Bloom过滤器的性能,Bloom过滤器是一种已有半个世纪历史的搜索技术,在许多之前的研究中已经应用于基因组序列搜索。RAMBO改进了早期用于基因组搜索的Bloom过滤器方法,采用了一种称为计数分钟草图的概率数据结构,这种结构比以前的方法“在查询时间和内存方面进行了更好的权衡”,并且“通过实现一个非常健壮的、低内存和超快的索引数据结构。”

Gupta和Yan说,RAMBO有可能使基因组搜索大众化,几乎任何实验室都可以使用现成的计算机快速而廉价地搜索巨大的基因组档案。获取更多前沿科技 研究进展 访问:https://byteclicks.com

“RAMBO可以减少大量生物信息学研究的等待时间,比如在全球范围内寻找废水宏基因组中是否存在SARS-CoV-2,”Yan说。“例如,RAMBO可以在癌症基因组学和细菌基因组进化的研究中发挥作用。”

新方法RAMBO加速了对巨大DNA数据库的搜索,几分钟就可得到结果

上一篇:

下一篇:


标签