生成包含十亿种潜在精神药物数据库机器学习可预测未上市新型人造毒品
英国《自然·机器智能》杂志15日发表一项计算生物学突破,包括加拿大英属哥伦比亚大学在内的研究团队研发了一种自动化、生成式的机器学习方法,可以仅利用质谱就确定未知的新型精神药物(又称人造毒品)的化学结构,了解这些结构能帮助法医实验室更快识别出疑似的人造毒品。
每年有大量新型精神药物出现在非法市场上,这些药物会造成与已知非法药物相近的精神效果,但其合成方式使其在化学上与已知非法药物有所不同,这些药物规避了现有的毒品法规,甚至难以被侦测。法医实验室使用质谱分析法在查封药片或粉末中识别已知人造毒品。但是,要弄清一种全新人造毒品的结构,通常需要化学专家工作数周或数月,并且需要用到多种实验技术。
加拿大英属哥伦比亚大学研究人员迈克尔·斯金奈德及其同事,此次使用全球各地法医实验室众包的保密数据,训练了一个机器学习模型。他们所使用的算法也被称为深度神经网络,其灵感来自于人脑的结构和功能。机器学习产生了结构和性质都类似于近期人造毒品的分子。该模型随后产生了一个数据库,包含十亿种潜在新型精神药物的结构。用模型训练结束后新收集的数据测试该模型,发现这一方法可以仅用质谱就确定未知人造毒品。在准确结构难以精准确定的实例中,该模型建议的结构,与未知人造毒品非常相似。
研究人员发现,该模型还可帮助人们了解到哪些分子更有可能出现在市场上,哪些不太可能。研究人员总结说,用其他数据集训练的类似的生成方法,也可以帮助识别其他特定领域未知分子的结构,例如识别新型兴奋剂或者环境污染物。
研究资深作者、阿尔伯塔大学计算科学教授戴维·维斯哈特表示,这一模型意义有点类似2002年的科幻电影《少数派报告》,其可以对即将发生的犯罪活动有所预知,从而帮助显著减少犯罪,“从本质上讲,这一新成果为执法机构和公共卫生计划提供了一个所谓‘先机’,让他们知道需注意什么。”
斯金奈德表示,该模型仅仅通过精确的质谱测量就阐明整个化学结构,而将数十亿个结构的列表缩小到10个候选结构,大大加快了化学家识别新药物的速度。获取更多前沿科技 研究进展 访问:https://byteclicks.com
数据可用性
由于数据的敏感性和误用的可能性,此处描述的 HighResNPS 和生成的分子和 MS/MS 谱的数据库无法向公众提供不受限制的下载。但是,数据已上传到 NPS 数据中心 ( https://nps-datahub.com/ ),并将应要求提供给该领域所有合格的研究人员。http://github.com/skinnider/NPS-generation提供了一个包含 2,000 个 SMILES 字符串的演示数据集,用于从 ChEMBL 数据库中随机采样的药物样小分子,以演示代码的功能。
代码可用性
用于训练和评估化学语言模型的代码可从 GitHub 获得,网址为http://github.com/skinnider/NPS-generation