好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

科学家创建云平台向所有人开放基因组学数据

利用基因组学的力量来寻找重大疾病的风险因素或寻找亲属依赖于分析大量基因组的成本高昂且耗时的能力。由约翰霍普金斯大学计算机科学家共同领导的一个团队通过创建一个基于云平台来平衡竞争环境,该平台使基因组学研究人员能够轻松访问世界上最大的基因组学数据库之一。

被称为AnVIL(基因组数据科学分析、可视化和信息学实验室空间)的新平台让任何拥有互联网连接的研究人员都可以访问数以千计的分析工具、患者记录和超过 300,000 个基因组。这项工作是美国国家人类基因组研究所(NHGRI)的一个项目,近日发表在Cell Genomics上。

AnVIL 正在颠覆基因组学数据共享的模式,通过以新的方式连接研究人员和数据集,为科学提供前所未有的新机遇。

通常,基因组分析始于研究人员将大量数据从中心数据仓库下载到他们自己的数据中心,这一过程不仅耗时、低效且昂贵,而且还使得与其他机构的研究人员合作变得困难。AnVIL 将为各种规模的机构带来变革,尤其是那些没有资源建立自己的数据中心的小型机构。

癌症或心血管疾病等疾病的遗传风险因素通常非常微妙,需要研究人员分析数千名患者的基因组以发现新的关联。单个人类基因组的原始数据包含大约 40GB,因此下载数千个基因组可能需要几天到几周的时间。

此外,许多研究需要整合在多个机构收集的数据,这意味着每个机构必须下载自己的副本,同时确保维护患者数据的安全性。随着研究人员开始进行更大规模的研究,需要同时分析数十万到数百万个基因组,预计这一挑战在未来会变得更大。

AnVIL 还为研究人员提供了几种主要的分析工具,包括部分由约翰霍普金斯大学开发的 Galaxy,以及其他流行的工具,如 R/Bioconductor、Jupyter notebook、WDL、Gen3 和 Dockstore,以支持交互式分析和大规模批处理计算。总的来说,这些工具使研究人员能够处理最大规模的研究,而无需构建自己的计算环境。

来自世界各地的研究人员目前使用该平台研究多种遗传疾病,包括自闭症谱系障碍、心血管疾病和癫痫。该研究团队是 Telomere-to-Telomere Consortium 的一部分,使用它重新分析了数千个具有新参考基因组的人类基因组,以发现超过 100 万个新变体。

AnVIL 团队已经从几个最大的 NHGRI 项目中收集了数 PB 的数据,包括来自基因型组织表达 (GTEx)、孟德尔遗传学中心 (CMG) 和常见疾病基因组学中心 (CCDG) 的数十万个基因组) 项目,并计划在不久的将来加入更多项目。

AnVIL 团队包括来自约翰霍普金斯大学、麻省理工学院和哈佛大学博德研究所、哈佛大学、范德比尔特大学、芝加哥大学、俄勒冈健康与科学大学、耶鲁大学医学院、加州大学圣克鲁兹分校、罗斯威尔分校的研究人员帕克综合癌症研究所、宾夕法尼亚州立大学、纽约城市大学、卡内基研究所和圣路易斯华盛顿大学。 

这项工作得到了 NHGRI 的合作协议奖励的支持,国家卫生研究院数据科学战略办公室向 Broad 研究所和约翰霍普金斯大学提供了共同资助。获取更多前沿科技 研究进展 访问:https://byteclicks.com

上一篇:

下一篇:


标签