一个用于研究蛋白质-蛋白质相互作用的大型数据集
一个用于研究蛋白质-蛋白质相互作用(PPI)的大型数据集,基于深度突变扫描(DMS)数据。
蛋白质-蛋白质相互作用的重要性:
PPI在细胞功能中起着关键作用,理解这些相互作用对于药物发现和生物机制研究至关重要。
尽管在预测蛋白质结构方面取得了进展,但准确预测PPI的强度仍然是一个挑战。
当前方法的挑战:
传统的低通量实验方法生成的数据量有限,难以满足深度学习模型的训练需求。
高通量的DMS实验虽数据丰富,但往往未充分利用,尤其是在考虑相互作用伙伴时。
这个大型数据集,包含超过1000万个DMS原始数据点,精炼为50万个高质量数据点,来自25个实验,专注于PPI。
数据集确保包含所有相互作用蛋白的序列和结构,超越了仅关注单个蛋白的先前数据集。
数据收集和处理:
将野生型序列映射到PDB中的相应复杂结构,若存在不匹配,则使用同源建模进行填补。
使用FoldX生成突变体的结构,以便获得野生型和突变体的结构用于模型训练。
数据分割策略:
引入了“中间与极端分割”和“跨实验分割”策略,旨在提高模型在现实世界应用中的泛化能力。
基线模型和指标:
包含十种基线模型,涵盖结构-based、MSA-based和序列-based类别。
使用标准指标如Spearman、AUC、MCC等,并引入“UnbiasHit@10”指标,适用于仅测试少数 top 变体的实际情况。
实验结果:
结构-based模型表现更好,因为它们包含了蛋白质的物理信息。
尽管如此,仍存在改进空间,尤其是在处理噪声较大的DMS数据和有限的PPI对时。
未来方向和应用:
计划每年更新数据集,以纳入新研究并扩大覆盖范围。
潜在应用包括药物发现、合成生物学和疾病机制研究等。
文章提供了一个高质量的PPI数据集和评估模型的框架,有望推动PPI预测和理解的进展。