好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

一种创新计算工具Tucuxi-BLAST可集成分析不同健康数据库

巴西研究人员创建了一种创新且灵活的计算工具,可以将不同的健康数据库与数百万患者记录联系起来并进行分析。该平台名为 Tucuxi-BLAST,使用代表 DNA 序列(A、T、C 或 G)中核苷酸的字母对数据库中的识别记录进行编码,例如患者姓名、母亲姓名和出生地。该工具可用于研究、流行病学分析和公共政策制定。

例如,巴西国家卫生服务机构 SUS 接种过疫苗的人可以与其他数据集交叉引用,以查找接种过疫苗的患有特定疾病的患者。即使疫苗接种记录包含错误或未完成的字段,Tucuxi-BLAST 也能够将其与另一个数据库中的同一患者联系起来,因为它将不一致视为 DNA 突变。如果每个人都对应一系列字母,则来自不同存储库的数据可以通过该工具进行交叉引用和链接。

SUS 是医学和流行病学研究的宝贵信息来源,因为它存储了数百万患者的健康数据。但是,与疾病和其他类型数据相关的记录存储在不同的数据库中。研究人员开发的方法能够准确、快速地实现记录链接。

该研究发表在PeerJ 杂志 上。

这个怎么运作

为了开发这种新方法,科学家们使用密码子轮将患者数据转换为 DNA 序列,该密码子轮在不同的运行过程中动态变化,而不会影响过程的效率。密码子是编码 DNA 或 RNA 分子中特定氨基酸的三个核苷酸的序列。密码子轮用于识别由任何 DNA 或 RNA 密码子编码的氨基酸。

这种编码方案启用了实时数据加密,从而在链接过程中提供了额外的隐私层。

使用 BLAST 比较 DNA 编码的识别字段,机器学习算法自动对最终结果进行分类。 获 取 更多前沿科技 研究 进展访问:https://byteclicks.com

在比较基因组学中,比较来自不同基因组的基因以确定共同和独特的序列,Tucuxi-BLAST 还允许同时整合来自多个管理数据库的数据,而无需复杂的数据预处理。 

在这项研究中,该小组使用 Tucuxi-BLAST 测试和比较了一个包含 3 亿条记录的模拟数据库,以及四个包含不同病原体感染患者真实病例数据的大型管理数据库。

结论是 Tucuxi-BLAST 成功处理了最大数据集(200,000 条记录)的记录链接,尽管存在拼写错误和其他错误和遗漏,但大大降低了处理时间。

研究人员建立了一个 网站 ,用户可以将单词、短语和名称翻译成 DNA。

研究人员指出,英国、加拿大和澳大利亚等几个国家已投资于成功的举措,以整合数据库并开发新的数据分析战略。

巴西的一个例子是健康数据和知识整合中心 ( CIDACS/Fiocruz ),该中心集成了管理和健康数据库,为1.14亿人收集记录。

上一篇:

下一篇:


标签