好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

一个用于研究蛋白质-蛋白质相互作用的大型数据集

一个用于研究蛋白质-蛋白质相互作用(PPI)的大型数据集,基于深度突变扫描(DMS)数据。

蛋白质-蛋白质相互作用的重要性

PPI在细胞功能中起着关键作用,理解这些相互作用对于药物发现和生物机制研究至关重要。

尽管在预测蛋白质结构方面取得了进展,但准确预测PPI的强度仍然是一个挑战。

当前方法的挑战

传统的低通量实验方法生成的数据量有限,难以满足深度学习模型的训练需求。

高通量的DMS实验虽数据丰富,但往往未充分利用,尤其是在考虑相互作用伙伴时。

这个大型数据集,包含超过1000万个DMS原始数据点,精炼为50万个高质量数据点,来自25个实验,专注于PPI。

数据集确保包含所有相互作用蛋白的序列和结构,超越了仅关注单个蛋白的先前数据集。

数据收集和处理

将野生型序列映射到PDB中的相应复杂结构,若存在不匹配,则使用同源建模进行填补。

使用FoldX生成突变体的结构,以便获得野生型和突变体的结构用于模型训练。

数据分割策略

引入了“中间与极端分割”和“跨实验分割”策略,旨在提高模型在现实世界应用中的泛化能力。

基线模型和指标

包含十种基线模型,涵盖结构-based、MSA-based和序列-based类别。

使用标准指标如Spearman、AUC、MCC等,并引入“UnbiasHit@10”指标,适用于仅测试少数 top 变体的实际情况。

实验结果

结构-based模型表现更好,因为它们包含了蛋白质的物理信息。

尽管如此,仍存在改进空间,尤其是在处理噪声较大的DMS数据和有限的PPI对时。

未来方向和应用

计划每年更新数据集,以纳入新研究并扩大覆盖范围。

潜在应用包括药物发现、合成生物学和疾病机制研究等。

文章提供了一个高质量的PPI数据集和评估模型的框架,有望推动PPI预测和理解的进展。

为创新充能 2元 查看完整内容!立即支付

上一篇:

下一篇:


标签