DELPHI:预测蛋白质相互作用位点的精确深度集成模型

原作者: [db:作者] 来自: [db:来源] 收藏邀请

文章目录

摘要：
一、介绍
二、材料和方法
（五）、模型架构
- （六）、CNN模型架构

Web服务器：www.csd.uwo.ca/~yli922/index.php
特征计算流水线:github.com/lucian-ilie/DELPHI
联系邮箱： [email protected]
补充资料：

摘要：

动机：蛋白质通常通过与其他蛋白质相互作用来发挥功能，这就是为什么准确预测蛋白质-蛋白质相互作用(PPI)结合位点是一个基本问题。实验方法既缓慢又昂贵。因此，人们正在努力提高计算方法的性能。
结果：我们提出了一种新的基于序列的深度学习预测PPI结合位点的方法–Delphi(深度学习预测高概率蛋白相互作用位点)。Delphi有一个集合结构，它结合了CNN和RNN组件，并采用了微调技术。除了现有的九个特性之外，还使用了三个新特性：HSP、位置信息和ProtVec。我们在5个数据集上综合比较了Delphi和9个最先进的程序，尽管Delphi的训练数据集与测试数据集的相似性最低，但Delphi在所有指标上都优于竞争对手的方法。在最重要的指标AUPRC和MCC上，它分别比第二好的程序高出18.5%和27.7%。我们还证明，这种改进本质上是由于使用了集成模型，特别是这三个新特性。用Delphi分析表明，这与蛋白质结合残基(PBR)和进化保守性强的位点有很强的相关性。此外，德尔福预测的PBR站点与Pfam的已知数据非常吻合。Delphi以开源独立软件和Web服务器的形式提供。

一、介绍

蛋白质-蛋白质相互作用(PPI)在许多细胞过程中起着关键作用，如信号转导、运输和新陈代谢(Zhang和Kurgan，2018)。蛋白质通过与其他蛋白质形成化学键相互作用。结合氨基酸残基是蛋白质相互作用的结合位点。检测PPI结合位点有助于理解细胞调控机制，定位药物靶点，预测蛋白质功能(Bonetta，2010)。像PDB(Berman等人，2002)这样的数据库存储从每个蛋白质的3D结构得到的蛋白质结合位点信息。
蛋白质-蛋白质相互作用(PPI)在许多细胞过程中起着关键作用，如信号转导、运输和新陈代谢(Zhang和Kurgan，2018)。蛋白质通过与其他蛋白质形成化学键相互作用。结合氨基酸残基是蛋白质相互作用的结合位点。检测PPI结合位点有助于理解细胞调控机制，定位药物靶点，预测蛋白质功能(Bonetta，2010)。像PDB(Berman等人，2002)这样的数据库存储从每个蛋白质的3D结构得到的蛋白质结合位点信息。
学习结构对PPI结合位点分类问题至关重要。以前探索的体系结构包括随机森林(魏等人，2016；Wang等人，2019年)、支持向量机(wei等人，2016)、Logistic回归(Zhang和Kurgan，2019年)、贝叶斯分类器(Murakami和Mizuguchi，2010)、人工神经网络(Singhet等人，2014)。最近，卷积神经网络(CNN)(曾等人，2019年)和递归神经网络(RNN)(张等人，2019a)也被应用于解决这一问题。
本文介绍了一种新的基于序列的PPI结合位点预测方法–Delphi(高概率蛋白相互作用位点的深度学习预测)，该方法结合了CNN和RNN结构并结合微调技术。它使用12个特征组来表示蛋白质序列，包括三个新特征：高得分片段对(HSP)、位置信息和简化的3-聚氨基酸嵌入(ProTV Ec1d)。我们在5个数据集上综合比较了Delphi和9个最先进的程序。Delphi提供了所有指标中最好的预测。
DELPHI首先，构建了一种结合CNN和RNN的新型微调集成模型。其次，介绍了首次用于PPI结合位点预测的三个新特征。第三，提供了一个数据处理和特征构造套件，旨在减轻用户繁琐的特征计算的难度。
DELPHI对蛋白质结合位点的预测与高度进化保守的位点之间显示出很强的相关性。虽然这种关系并不是排他性的，但许多结合位点将被保守以维持蛋白质结构。三种不同的哺乳动物蛋白质证明了这一点。此外，德尔福的预测与Pfam数据库中已知的蛋白质结合残基(PBR)进行了比较，这与Pfam数据库中已知的蛋白质结合残基(PBR)非常一致。

二、材料和方法

（一）、数据库

遵循现代机器应用程序的开发流程，我们使用三组数据来训练和评估Delphi的性能：培训、验证和测试。该模型在训练数据上进行训练，并在验证数据上进行验证，以确保低方差，即避免过拟合。经过多次迭代调整，得到了模型，并在独立的测试数据上运行，然后报告了在测试数据上的性能。请注意，该模型在训练和验证过程中从不观察测试数据。

（二）、测试集

比较评估中使用了五个数据集。我们根据数据大小为它们命名：Dset_186、Dset_72、Dset_164、Dset_448和Dset_355。前四个是来自以前研究(Murakami和Mizuguchi，2010)(Dhole等人，2014)(Zhang和Kurgan，2019年)的公开可用的数据集，最后一个是Dset_355，是Dset_448的子集。DSET_186、DSET_72、DSET_164作为基准数据集已被众多出版物广泛使用和探索；DSET_448是较新的。
Dset_186和Dset_72是由Murakami和Mizuguchi(2010)构造的。DSET_186是在PDB收集(Berman等人，2002年)的基础上构建的，其中应用了六步过滤过程来提炼数据，包括去除缺失残基的结构、去除具有相同UniprotKB/Swiss-Prot的链、去除跨膜蛋白、去除二聚体结构、去除一定范围内具有埋藏表面可及性和界面极性的蛋白质以及消除相似性。DSET_72是基于蛋白质基准集3.0版(Hwanget et al.，2008)构建的，去掉了与DSET_186的相似性。
Dset_164是由Dholeet et al.(2014)用与Dset_186和Dset_72相同的过滤技术构建的，这些过滤技术与Dset_186和Dset_72自Dset_186(2010年6月至2013年11月)发表以来在PDB中新注释的蛋白质上的过滤技术相同。
DSET_448是由张和库尔根(2019年)构建的。DSET_448的原始数据来自BioLip数据库(Yang等人，2012年)，在该数据库中，如果残基的原子与给定蛋白质伙伴的原子之间的距离<0.5ã加上两个原子的V和Der Waals半径之和，则定义结合位点。通过去除蛋白质片段、将BioLip序列映射到UniProt序列以及进行聚类，进一步处理原始数据，使得在DSET_448中没有超过25%的相似性。这个数据集是最新的，也是最大的。DeST_448不能用于测试顶级竞争程序之一DLPred，因为它包含93种蛋白质，与DLPred的训练集有40%以上的相似性。我们通过从DSET_448中去除这些蛋白质构建了DSET_355。

（三）、训练集和验证集

先从最近的调查报告中获得了大量、高质量的数据集(Zhang等人，2019b)。在这个数据集中，UniProt序列在残基水平上用蛋白质、DNA、RNA和小配体结合信息进行注释。我们对该数据集进行了进一步的处理，如下所示。首先，我们只保留了含有蛋白质-蛋白质结合信息的序列，重点放在蛋白质-蛋白质结合上。然后，我们从训练数据集中删除了与五个测试数据集中的任何序列的相似性超过25%的序列，如PSI-CD-HIT(Li and Godzik，2006；Fu等人，2012)所测量的。众所周知，训练和测试数据集之间的相似序列对机器学习模型的评估性能的泛化有负面影响。此外，通过基于比对的方法可以准确预测相似性水平更高的蛋白质(Zhang和Kurgan，2018年)。在25%到50%的范围内，不同的程序会选择不同的相似性阈值。我们选择了最严格的25%的值来与最接近的竞争对手之一Scriber(张和库尔根，2019年)进行公平的比较。我们使用PSI-CD-HIT，因为它快速、准确，并且在CD-HIT套件中维护良好。我们在其余的蛋白质序列上再次运行了PSI-CD-HIT，所以没有一个序列的相似性超过25%。这确保了训练数据尽可能多样化，以及训练数据集和验证数据集之间的不同之处。构建了9982个蛋白质序列的数据集。我们从其中随机选取八分之一(8872)作为训练数据集，九分之一(1110)作为验证数据集。

（四）、输入特征

DELPHI使用了12个特性组，如表2所示，其中还给出了维度和每个特性组。因此，每个输入由39维特征向量轮廓表示。据我们所知，这项研究是第一次将热休克蛋白、ProTV ec1d和位置信息用于结合位点分类问题。下面将描述这两个新特征中的每一个的计算。

表1.用于训练、验证和测试的数据集。这些列按顺序给出了数据集名称、每个数据集中的蛋白质数量、残基总数、结合数量、每个数据集中的非结合残基数量以及结合残基占总残基的百分比

表2.DELPHI使用的功能组。第一列表示每个功能的名称。第二列描述了用于获取该功能的程序。“Load”意味着特定氨基酸的值是从以前的工作中得知的，并且它被加载到Delphi程序中。“Compute”表示Delphi对该功能执行额外的计算。最后一列显示了每个功能组的维度。完整的细节在正文中给出。

高得分片段对(HSP)：HSP是两个蛋白质之间的一对相似的子序列。相同长度的两个子序列之间的相似性通过评分矩阵(如PAM和Blosum)来衡量。Sprint(Li和Ilie，2017)用于计算所有HSP，因为它在训练和测试中快速准确地检测所有蛋白质之间的相似性。获得热休克蛋白后，测试蛋白P的第i个残基的分数P[i]，表示为热休克蛋白分数(P[i])。假设我们在P和训练蛋白Q之间有一个HSP(u，v)，使得u覆盖残基P[i]，也就是说，P中的位置i在u覆盖的范围内。设j是Q中与i对应的位置，也就是说，从i开始到i的距离INP与Q中从v开始到j的距离相同。如果Q[j]是已知的相互作用残基，那么我们将P[i]和Q[j]之间的PAM120分数相加。

3-聚氨基酸嵌入(ProTV Ec1d)：我们在ProTV EC(Asgari and Mofrad，2015)的基础上开发了这一功能。ProTV EC使用word2vec(Mikolov等人，2013年)为每个氨基酸3-聚体构建100维嵌入。在(Asgari and Mofrad，2015)中，ProTV EC可以应用于蛋白质家族分类、蛋白质无因化、结构预测、无序蛋白质识别和蛋白质-蛋白质相互作用预测等问题。由于在我们的程序中使用ProTV EC嵌入显著降低了深度学习模型的速度，特别是在训练期间，我们将100维向量替换为一维值，即100个分量的总和；我们称之为ProTV ec1d。根据我们的测试，ProTV ec1d在其他特征方面达到了与protv ec相同的预测性能。
在计算了所有特征向量之后，使用公式(1)将每个行向量中的值归一化为0到1之间的数字，其中v是原始特征值，并且max和min分别是在训练数据集中观察到的最大和最小值。这是为了确保每个要素组具有相同的数值比例，并帮助模型更好地收敛。

（五）、模型架构

DELPHI架构灵感来自于整体学习。设计的直觉是，模型的不同组件捕捉不同的信息，另一个深度神经网络被训练成只选择最有用的。如图1所示，该模型由三部分组成：卷积神经网络(CNN)组件、递归神经网络(RNN)组件和集成组件。CNN和RNN组件的核心层是卷积和双向门控递归单元(GRU)层。合奏模型对前两个分量的输出进行解码。
该模型的另一个非常有用的特点是它的多对一结构，这意味着许多残基的信息被用来预测中心单个残基的结合倾向。如图2所示，对于作为预测目标的每个氨基酸，以氨基酸位置为中心的31个大小的窗口被用来从邻近的30个残基收集信息，以帮助预测。一个滑动窗口被用来捕捉每个31-mer。尺寸31是通过实验确定的。序列的开始和结束部分用零填充。多对一结构有两个优点。首先，它是一种数据增强技术。深度学习模型需要大量的数据进行训练，与图像分类器相比，蛋白质组学中的模型能够获得的数据要少几个数量级。在训练过程中多次使用每个残基有助于模型更好地学习。其次，它使模型更具稳健性。蛋白质序列的长度从不到一百到几千不等，大多数多对多模型的固定输入长度接近500。在训练过程中，通常选择长度在500左右的序列。然而，在测试过程中，输入序列是随机的，需要填充或切成碎片。训练和测试之间的平均长度不同可能会使模型变得不那么通用。

（六）、CNN模型架构

CNN模型一具有简洁的结构：一个卷积层、一个最大层、一个平坦层和两个完全连通的层。对于每个大小为31的输入子序列，构建大小为39×31的2D特征轮廓。2D向量被重塑为3D，然后传递到卷积2D层，随后是最大合并层。使用卷积和最大值层的直觉是，2D蛋白质剖面向量可以被认为是具有一个通道的图像，并且CNN模型捕捉局部图像中多个要素的组合。结果是平坦的，然后馈入两个完全相连的层，然后丢弃进行正则化。最后一个完全连通的层有一个具有**函数Sigmoid的单元，因此输出是0到1之间的单个值。值越高，CNN模型声称剩余的是PPI结合位点就越有把握。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

MATLAB化坐标系（转载的） - 如蛆附骨发布时间：2022-07-18

matlab 画图坐标datacursormode on的使用发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：17926|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9553|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8120|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8500|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8403|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9291|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8369|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7796|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8350|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7354|2022-11-06

客服电话

电子邮件

DELPHI:预测蛋白质相互作用位点的精确深度集成模型

文章目录

摘要：

一、介绍

二、材料和方法

（一）、数据库

（二）、测试集

（三）、训练集和验证集

（四）、输入特征

（五）、模型架构

（六）、CNN模型架构

请发表评论

全部评论

上一篇：

下一篇：

CVE-2022-34280

bradtraversy/iweather: Ionic 3 mobile we

断牙刷新位置时间（断牙属性及刷新位置介绍

MATLAB命令大全

hcsp/implement-sem-version: Java basic p

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053