新工具可轻松搜索世界已知10%的基因
一个瑞士研究团队开发了一种名叫MetaGraph的计算工具,它能以低成本轻松搜索庞大的生物序列数据,如DNA、RNA和蛋白质序列。这个工具类似谷歌搜索,将大量生物序列数据组织、压缩成可搜索格式。在初步验证研究中,该工具成功创建了全球10%生物序列数据的索引,未来有望扩展至全部数据。这种索引不仅可下载,还能通过网站访问,覆盖数万亿碱基对和数十亿氨基酸序列,极大促进了从发现新病毒到分析疾病相关RNA序列等多领域研究。
目前,生物序列数据正以前所未有的速度增长,传统工具难以应对。MetaGraph通过改进,已构建出最大规模的索引,且使用成本相对较低,能将海量数据压缩至个人电脑即可处理的大小。这不仅降低了科研成本,还减少了对计算资源的需求,使低收入和中等收入国家的科学家也能更便捷地进行基因组研究。
除MetaGraph外,还有其他项目如IndexThePlanet和Pebblescout也在致力于生物序列数据的索引工作,显示出该领域的活跃度和重要性。然而,MetaGraph仍面临一些挑战,包括处理极大规模查询时的速度问题、索引更新策略以及长期维持项目的资金和计算资源需求。
MetaGraph展示了在生物信息学领域的巨大潜力,有望简化和加速全球生物序列数据的搜索与利用,但仍需解决实施过程中的社会、经济和技术障碍,以促进其广泛应用。