
基于深度卷积神经网络的无序蛋白质功能模体的识别
方春;田爱奎;孙福振;李彩虹;朱大铭
【摘 要】Aiming at the problem that identifying molecular recognition
feature(MoRF)in intrinsic disordered proteins was complicated and
difficult,while traditional prediction algorithms generally relied on artificial
feature extraction and their accuracy was still low,a novel method bad on
deep convolution neural network was propod for identifying MoRF in
protein method took the protein quence as input
directly,and maped the quence to a feature matrix by calculating the
position-specific scoring matrix of the quence and three groups of
amino acid deep learning model extracted features and
identified the recessive quence pattern of MoRF
experimental results show that,using the same training and testing
datats,the propod method obviously outperformes other tradi-tional
methods,achieving the value of area under curve(AUC)of the receiver
operating characteristics 0.708 on the vali-dation datat and the AUC
value 0.760 on the test datat,which suggests that the deep convolution
neural network pro-vides an effective way to improve the MoRFs
method can also be ud to identify other aggregated
func-tional sites of proteins.%针对目前实验方法识别天然无序蛋白质中的功能
模体耗时费力、难度大,而传统计算机辅助识别方法过于依赖人工挑选特征且准确
度低等问题,提出一种利用深度卷积神经网络预测功能模体位置的方法;该方法直接
将蛋白质序列作为输入,通过计算对应的位置特异性打分矩阵和3组氨基酸指数特
征,将序列映射到数值矩阵中,模型自行抽取特征并自动识别功能模体的隐性序列模
式来进行预测.结果表明:当使用相同数据集进行训练和测试时,本文中提出的方法的
性能明显优于其他传统的识别算法,在验证集上的感受性曲线下的面积(AUC)值达
到0.708,在测试集上的AUC值达到0.760,说明深度卷积神经网络能够有效地识别
功能模体的隐性序列模式;该方法也可以用于其他聚集型蛋白质功能位点的识别.
【期刊名称】《济南大学学报(自然科学版)》
【年(卷),期】2018(032)004
【总页数】6页(P280-285)
【关键词】深度卷积神经网络;无序蛋白质;序列模式;识别
【作 者】方春;田爱奎;孙福振;李彩虹;朱大铭
【作者单位】山东理工大学计算机科学与技术学院,山东淄博 255049;山东理工大
学计算机科学与技术学院,山东淄博 255049;山东理工大学计算机科学与技术学院,
山东淄博 255049;山东理工大学计算机科学与技术学院,山东淄博 255049;山东大
学山东省软件工程重点实验室,山东济南 250000
【正文语种】中 文
【中图分类】TP391
天然无序蛋白质是一类柔性极强的蛋白质,它们在未绑定到其他分子时,处于不折
叠的松散状态却具有正常的生物学功能,不仅广泛参与各种重要的生理与病理过程,
而且与神经退行性疾病和癌症的关系非常密切[1-2]。天然无序蛋白质在生物体内
普遍存在,并且生命形式越高级其含量越多[1-2],特别是在人类细胞中,大约
30%~50%的蛋白质完全无序或包含显著无序片段[3]。虽然无序蛋白质在单独存
在状态下无折叠,但是当绑定到其分子伴侣上时,其中的某些片段会发生从无折叠
到折叠的状态改变,通常把这些能改变状态的片段称为分子识别特征(molecular
recognition features,MoRF)[4],也称功能模体。同一个MoRF可以与多个不
同的分子对象绑定而呈现不同的二级结构折叠状态。MoRF很容易形成蛋白质相
互作用网络中的“集线器”[5],是蛋白质相互作用网络中的关键点,因此,识别
MoRF在无序蛋白质序列中的位置,对理解蛋白质的功能,研究蛋白质折叠机制
和相关疾病的致病机理及寻找药物靶点至关重要。
物理实验方法识别无序蛋白质功能模体具有难度大、 成本高、 耗时长(无序片段在
X射线晶体衍射图上电子密度缺失)的缺陷, 而计算机辅助方法能极大地降低成本
和缩短耗费时间, 并且为在大数据的基础上进行分析提供可能, 是必不可少的方
法。 天然无序蛋白质和MoRF没有固定的折叠结构, 能用的结构特征信息有限,
因此, 基于序列特征的预测方法受到了广泛关注。 目前人们提出一些基于序列特
征来预测无序蛋白质MoRF序列位置的方法, 其中, 代表性的方法有
MoRFpred[6]、 ANCHOR[7]、 MFSPSSMpred[8]、 Retro-MoRFs[9]、
MoRFCHiB[10]和MoRFPred-plus[11]。这些方法将从其他预测工具得到的大量
结果作为输入特征,例如,预测的残基无序倾向概率、二级结构特征、溶剂可及表
面面积和二面转角等。大量采用预测的特征值进行串联后再次作为输入,容易造成
特征空间的高维稀疏而导致“过拟合”问题,并且极大地增加了算法的复杂度。另
外,传统算法将特征抽取和机器学习训练作为2个独立的过程进行,先采用各种
统计分析方法提取特征并人工进行预处理,再进行二次编码来生成特征向量作为机
器学习的输入,然后进行学习训练,没有考虑特征抽取和机器学习过程之间存在着
潜在的不匹配效应,而且人工特征工程也容易导致特征抽取的不全面,因此,有必
要提出更加简单、高效的算法来改进无序蛋白质功能模体的预测。
先前的研究[7,12]表明,无序蛋白质功能模体具有特定的序列保守性模式,它是由
高度保守残基夹杂着高度可变的残基构成的。高度保守是为了维护特定的功能,而
高度可变是为了维护无序结构的灵活性。在结合分子伴侣时,并不是所有残基贡献
都一样,只有一些特定的残基模式在分子识别中有贡献,因此,功能模体在蛋白质
序列的特征表达中具有特定的模式。
目前,随着人工智能热潮的到来,深度学习受到了高度关注,而深度卷积神经网络
(deep convolutional neural networks, DCNN)被视为深度学习的支柱。DCNN
最初是被设计用来处理图像像素矩阵中的空间局部关联性[13]。它直接以原始图像
作为输入,避开传统识别算法中复杂的特征提取和数据重建过程,隐式地从训练数
据中自行抽取特征进行学习。DCNN取得成功的关键是卷积算子能够充分利用图
像像素矩阵中密集表示的数据的空间局部相关性[13]。因为这种局部相关性不是图
像数据所特有的,任何能表示成矩阵形式的其他类型的数据也具有这类属性,所以
DCNN在自然语言、声音、视频等多个领域的应用取得了巨大成功。另外,
DCNN不像传统算法那样把特征提取和模型学习作为2个独立的步骤进行,而是
交织在一起同时进行,这样可以减少特征提取和模型学习之间潜在的不匹配效应
[13]。
本文中采用类似于图像的表示方法(像素矩阵)来表示蛋白质序列(特征矩阵),序列
中的功能模体的模式信息也必然包含在该序列所对应的特征矩阵中,所以DCNN
也适用于蛋白质中功能模体的序列模式识别问题。基于此本文中提出一种简单的序
列表示方法来描述蛋白质的序列信息,并采用DCNN构建模型进行无序蛋白质功
能模体MoRF的预测。
1 数据和方法
1.1 数据集
本文中所使用的数据集分为3个部分,即训练集、验证集和测试集,均来自于文
献[6]中所使用的数据集。其中训练集取自于421条蛋白质多肽链,包含了5 396个
正样本(MoRF残基) 和240 588个负样本(非MoRF残基)。为了解决正、负样本
的严重不平衡问题,从负样本中随机抽取了与正样本等量的样本数与正样本合并到
一起组成训练集。验证集由419条包含MoRF的蛋白质多肽链构成,测试集由45
条包含MoRF的蛋白质多肽链构成。验证集、测试集与训练集的序列相似度均小
于30%。上述数据集的统计见表1。
表1 数据集的统计数据集序列条数正样本数负样本数训练集4215 396240 588
验证集4195 153253 676测试集4562636 907
1.2 蛋白质序列特征表示
本文中使用了2类特征来表示蛋白质序列,即位置性特异性打分矩阵(position
specific scoring matrix,PSSM)和氨基酸特征系数。
1)PSSM。本文中使用PSI-BLAST (position specific iterative basic local
alignment arch tool)命令[14],设置迭代次数为3,比对美国国家生物技术信
息中心的非冗余序列数据库来生成PSSM文件。每条长度为l的蛋白质肽链可得
到一个l×20型的矩阵(l为蛋白质序列的长度)。该矩阵主要用来代表序列中氨基酸
的保守性特征,其元素值分布在[-16,16]之间,元素数值越大,表示保守性越强。
2)氨基酸特征系数。本文中使用了3类特征系数来表示氨基酸特征(图1),分别来
自文献[15]中的10种木寺系数(k1—k10)、文献[16]中的5种特征系数(f1—f5)和
文献[17]中的7种特征系数(p1—p7)。这些特征系数在相关文献里被认为是能比
较丰富地表达氨基酸的各种理化特征信息和微观结构特征信息。这样,每条蛋白质
序列可表示为一个l×(10+5+7)型,即l×22型的矩阵。
黄色背景的k1—k10、绿色背景的f1—f5和蓝色背景的p1—p7分别代表了不同
类的特征系数,每类分别包含了3×20个、5×20个和7×20个系数常量。图1
3类氨基酸的特征系数
1.3 蛋白质序列的编码方式
用PSSM及3组氨基酸特征系数矩阵横向连接到一起来表示蛋白质序列特征,每
条长度为l的蛋白质序列对应到一个l×(20+10+5+7)型,即l×42型的矩阵。采
用滑动窗口切分该矩阵,为每个残基产生一个特征矩阵作为神经网络模型的输入。
无序蛋白质MoRF片段的长度一般分布在5~25个残基之间,为了让每个残基可
能对应的MoRF片段的信息都完整地包含在该滑动窗口内,本文中采用长度为51
的滑动窗口(每个残基两侧各取25个残基)来切分序列所对应的特征矩阵。通过这
种编码方式,每个残基的特征信息即被表示成一个51×42型的矩阵。
1.4 方法的流程图
本算法的流程图如图2所示。 首先, 由蛋白质序列得到PSSM, 并计算序列对应
的3类特征系数(k1—k10、 f1—f7和p1—p5)。 用上述PSSM和各种特征系数
横向连接来表示蛋白质序列, 使每条长度为l的蛋白质序列对应于一个l×42型的
矩阵; 然后, 通过滑动窗口提取每个残基对应的特征矩阵块作为DCNN模型的
输入; 最后, 将DCNN模型的输出概率值进一步通过平滑处理, 产生最终的预
测结果。
1.5 深度卷积神经网络的结构
本文中采用的DCNN结构如图3所示,3个卷积层(卷积核大小为3×3)、3个丢
失层(丢失率为0.2)和3个下采样层(窗口大小为2×2)分别交织在一起,最后再接
上2个全连接层,并在全连接层中间也插入1个丢失层(丢失率为0.2)。除了输出
层的激活函数为Sigmoid, 用来产生预测概率值外, 其他各层的激活函数均为
Relu,模型训练时损失函数为Binary_crosntropy,优化函数为RMSProp。
DCNN表示深度卷积神经网络模块;PSSM表示位置性特异性打分矩阵特征;
k1—k10、f1—f5和p1—p7为3类氨基酸特征系数。图2 预测方法的流程图
1.6 评价指标
本研究属于二分类问题,即判断某个氨基酸残基是否属于无序蛋白质的MoRF片
段。感受性曲线(receiver operating characteristic curve, ROC)及曲线下的面积
(area under curve, AUC)值被用来作为算法的评价指标。AUC值越大,即ROC
下的面积值越大,说明该分类器的性能越好。在ROC图中,每个点的横坐标为假
阳性率(FPR),代表将负样本错分为正样本的概率;纵坐标为真阳性率(TPR),代表
将正样本分对的概率。另外, 正确指数又称约登(Youden)指数,也被用来作为评
价指标之一。该指数为正样本分对的概率与负样本分对的概率之和减去1,表示分
类器对样本预测正确的总能力,指数越大,性能越好。
2 结果与分析
2.1 平均化处理滑动窗口的优化
因为无序蛋白中的功能模体是一个连续的序列片段而不是单个的氨基酸, 所以本
文中采用滑动窗口对DCNN模型的输出概率值进行平滑的优化处理, 即对每个残
基取包含其两侧一定长度内的残基预测概率的平均值作为该中心残基的最终预测结
果。 为了优化平均化滑动窗口的大小, 本文中在验证集上进行了分析比较。该算
法根据不同滑动窗口
conv2d、max_pooling2d、den、dropout和activation分别表示对应的卷
积层、下采样层、全连接层、丢失层和激活层;input和output表示各层网络对
应的输入和输出参数。图3 本文中使用的深度卷积神经网络的结构图
大小所得到的ROC曲线如图4所示。当窗口长度大于9后,算法性能趋于稳定,
因此,本文中选择最佳的滑动窗口长度13来进行结果的优化。
图4 根据不同平均化滑动窗口大小所得到的感受性曲线
2.2 基于不同特征的方法的性能比较
在验证集上, 本文中对使用不同特征表示蛋白质序列的方法的性能进行了比较。
主要对比了以下4种方法: 1)打分矩阵方法仅使用了PSSM来表示蛋白质序列特
征; 2)特征系数方法仅使用了3类氨基酸特征系数来表示蛋白质序列特征; 3)打
分矩阵-特征系数方法同时使用了PSSM和3类氨基酸特征系数来表示蛋白质序列
特征,但没有采用最后的平滑处理来优化结果;4)本文中提出的方法。上述4种
方法在验证集上进行测试得到的ROC曲线如图5所示,本文中提出的方法AUC
值达到0.708,优于其他方法的性能。
图5 4种基于不同特征的方法在验证集上的感受性曲线
2.3 与其他方法的比较
目前已有的方法中,Retro-MoRFs[9]、MoRFCHiB[10]和MoRFPred-plus[11]
的性能主要依赖于组合多个分类器的预测结果,它们的精确度在很大程度上是“以
量取胜”,而本文中提出的方法是基于单个机器学习模型的,因此,只与3个有
代表性的单模型方法进行了比较,即MoRFpred[6]、ANCHOR[7]和
MFSPSSMpred[8],这些方法也经常在其他文献中作为比较对象。经过在测试集
上进行测试,各方法的ROC曲线图如图6所示,详细的正确指数、TPR、FPR和
AUC值列于表2中。从图6和表2中可以看出,本文中提出的方法在测试集上取
得最好的性能,即正确指数值达到0.444,AUC值达到0.760。
图6 不同方法在测试集上的感受性曲线表2 与已有方法在测试集上的性能比较
结果
方法名称正确指数真阳性率假阳性率线下面积值文献[6]中的方法
0.1920.2360.0450.697文献[7]中的方法0.1980.4330.2360.638文献[8]中的方法
0.3700.5460.1760.706本文中提出的方法0.4440.7320.2880.760
3 结语
本文中利用一种深度学习方法来预测天然无序蛋白质中的功能模体在序列中的位置。
采用位置特异性打分矩阵和3类氨基酸特征系数来描述蛋白质序列信息,将每条
序列编码成类似于图像像素矩阵的二维数值矩阵形式,并用DCNN来搭建模型进
行预测。 另外, 本文中把无序蛋白质中的功能模体预测作为一个片段识别来对待,
而不是像传统方法那样作为单个的残基分类, 所以在DCNN的输出上加了一个段
平均化的平滑处理步骤来进一步优化结果。 在相同数据集上进行测试和比较, 结
果表明,本文中提出的方法显著优于其他方法, AUC值和正确指数值均大于其他
方法的,说明本算法能有效地识别功能模体在无序蛋白质序列中的隐藏信息模式。
本方法也适用于其他聚集型蛋白质功能位点的预测。
参考文献:
【相关文献】
[1] 黄永棋,刘志荣. 天然无序蛋白质:序列-结构-功能的新关系[J]. 物理化学学报,2010,26(8):
2061-2072.
[2] UVERSKY V N. Introduction to intrinsically disordered proteins (IDPs) [J]. Chem Rev,
2014, 114(13): 6557-60.
[3] PETER T. Intrinsically disordered proteins: a 10-year recap [J]. Cell, 2012, 37(12): 509-
516.
[4] MOHAN A, CHRISTOPHER J O. Analysis of molecular recognition features (MoRFs)[J].
J Mol Biol, 2006, 362: 1043-1059.
[5] HU G, UVERSKY V N, KURGAN L. Functional analysis of human hub proteins and their
interactors involved in the intrinsic disorder-enriched interactions[J]. Int J Mol Sci, 2017,
18(12), 2761.
[6] FATEMEH M D, OLDFIELD C J, MARCIN J M, et al. MoRFpred, a computational tool for
quence-bad prediction and characterization of short disorder-to-order transitioning
binding regions in proteins[J]. Bioinformatics,2012, 28(12): i75-i83.
[7] DOSZTANYI Z, MÉSZROS S I. ANCHOR: web rver for predicting protein binding
regions in disordered proteins[J]. Bioinformatics, 2009, 25(20): 2745-2746.
[8] FANG C, NOGUCHI T. MFSPSSMpred: identifying short disorder-to-order binding
regions in disordered proteins bad on contextual local evolutionary conrvation[J].
BMC Bioinformatics, 2013, 14:300.
[9] XUE B, DUNKER A K, UVERSKY V N. Retro-MoRFs: identifying protein binding sites by
normal and rever alignment and intrinsic disorder prediction [J]. Int J Mol Sci, 2010,
11(10): 3725-3747.
[10] MALHIS N, GSPONERR J. Computational identification of MoRFs in protein
quences [J]. Bioinformatics, 2015, 31(11): 1738-1744.
[11] SHARMA R, BAYARJARGAL M, TSUNODA T, et al. MoRFpred-plus: computational
identification of MoRFs in protein quences using physicochemical properties and HMM
profiles[J]. J Theor Biol, 2018, 437:9-16.
[12] 曹赞霞,董川,赵立岭,等. 固有无序蛋白质与蛋白质相互作用位点残基特征分析[J]. 生物化
学与生物物理进展,2014,41(5):462-472.
[13] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[14] STEPHEN F A, THOMAS L M, ALEJANDRO A S, et al. Gapped BLAST and PSI-BLAST: a
new generation of protein databa arch programs[J]. Nucleic Acids Rearch, 1997,
25(17): 3389-3402.
[15] KIDERA A, KONISHI Y, OKA M, et al. Statistical analysis of the physical properties of
the 20 naturally occurring amino acids[J]. Journal of Protein Chemistry, 1985, 4(1): 23-25.
[16] ATCHLEY W R, ZHAO J, FERNANDES A D, et al. Solving the protein quence metric
problem[J]. Proceedings of the National Academy of Sciences of the United States of
America, 2005, 102(18): 6395-6400.
[17] MEILER J, MÜLLER M, ZEIDLER A, et al. Generation and evaluation of dimension-
reduced amino acid parameter reprentations by artificial neural networks[J]. J Mol
Model, 2001, 7:360-369.

本文发布于:2023-05-26 13:57:24,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/168508064555248.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:基于深度卷积神经网络的无序蛋白质功能模体的识别.doc
本文 PDF 下载地址:基于深度卷积神经网络的无序蛋白质功能模体的识别.pdf
| 留言与评论(共有 0 条评论) |