生成包含十亿种潜在精神药物数据库机器学习可预测未上市新型人造毒品

supercell 11月 16, 2021 9.08k 浏览 0

英国《自然·机器智能》杂志15日发表一项计算生物学突破，包括加拿大英属哥伦比亚大学在内的研究团队研发了一种自动化、生成式的机器学习方法，可以仅利用质谱就确定未知的新型精神药物（又称人造毒品）的化学结构，了解这些结构能帮助法医实验室更快识别出疑似的人造毒品。

每年有大量新型精神药物出现在非法市场上，这些药物会造成与已知非法药物相近的精神效果，但其合成方式使其在化学上与已知非法药物有所不同，这些药物规避了现有的毒品法规，甚至难以被侦测。法医实验室使用质谱分析法在查封药片或粉末中识别已知人造毒品。但是，要弄清一种全新人造毒品的结构，通常需要化学专家工作数周或数月，并且需要用到多种实验技术。

加拿大英属哥伦比亚大学研究人员迈克尔·斯金奈德及其同事，此次使用全球各地法医实验室众包的保密数据，训练了一个机器学习模型。他们所使用的算法也被称为深度神经网络，其灵感来自于人脑的结构和功能。机器学习产生了结构和性质都类似于近期人造毒品的分子。该模型随后产生了一个数据库，包含十亿种潜在新型精神药物的结构。用模型训练结束后新收集的数据测试该模型，发现这一方法可以仅用质谱就确定未知人造毒品。在准确结构难以精准确定的实例中，该模型建议的结构，与未知人造毒品非常相似。

研究人员发现，该模型还可帮助人们了解到哪些分子更有可能出现在市场上，哪些不太可能。研究人员总结说，用其他数据集训练的类似的生成方法，也可以帮助识别其他特定领域未知分子的结构，例如识别新型兴奋剂或者环境污染物。

研究资深作者、阿尔伯塔大学计算科学教授戴维·维斯哈特表示，这一模型意义有点类似2002年的科幻电影《少数派报告》，其可以对即将发生的犯罪活动有所预知，从而帮助显著减少犯罪，“从本质上讲，这一新成果为执法机构和公共卫生计划提供了一个所谓‘先机’，让他们知道需注意什么。”

斯金奈德表示，该模型仅仅通过精确的质谱测量就阐明整个化学结构，而将数十亿个结构的列表缩小到10个候选结构，大大加快了化学家识别新药物的速度。获取更多前沿科技研究进展访问：https://byteclicks.com

数据可用性

由于数据的敏感性和误用的可能性，此处描述的 HighResNPS 和生成的分子和 MS/MS 谱的数据库无法向公众提供不受限制的下载。但是，数据已上传到 NPS 数据中心 ( https://nps-datahub.com/ )，并将应要求提供给该领域所有合格的研究人员。http://github.com/skinnider/NPS-generation提供了一个包含 2,000 个 SMILES 字符串的演示数据集，用于从 ChEMBL 数据库中随机采样的药物样小分子，以演示代码的功能。

代码可用性

用于训练和评估化学语言模型的代码可从 GitHub 获得，网址为http://github.com/skinnider/NPS-generation

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/29704.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

生成包含十亿种潜在精神药物数据库机器学习可预测未上市新型人造毒品

文章推荐：

标签