一种基于结构域和GO注释的蛋白互作关系预测方法
ontology and co-expression.bmc genomics,2009,10:288.
9.[3]hao,t.,z.zeng,b.wang,et al.,the protein-protein interaction network of eyestalk,y-organ and hepatopancreas in chinese mitten crab eriocheirsinensis.bmc systbiol,2014,8:39.
[0010]
[4]hao,t.,l.zhao,d.wu,et al.,the protein-protein interaction network of litopenaeusvannameihaemocytes.front physiol,2019,10:156.
[0011]
[5]wojcik,j.and v.schachter,protein-protein interaction map inference using interacting domain profile pairs.bioinformatics,2001.17suppl 1:p.s296-305.
[0012]
[6]deng,m.,et al.,inferring domain-domain interactions from protein-protein interactions.genome res,2002.12(10):p.1540-8.
[0013]
[7]kim,w.k.,j.park,and j.k.suh,large scale statistical prediction of protein-protein interaction by potentially interacting domain(pid)pair.genome inform,2002.13:p.42-50.
[0014]
[8]hayashida,m.,et al.,conditional random field approach to prediction of protein-protein interactions using domain information.bmc systbiol,2011.5suppl 1:p.s8.
[0015]
[9]singhal,m.and h.resat,a domain-based approach to predict protein-protein interactions.bmc bioinformatics,2007,8:199.
[0016]
[10]zhang,x.,et al.,prediction of human protein-protein interaction by a domain-based approach.j theorbiol,2016.396:p.144-53.
技术实现要素:
[0017]
本发明所要解决的技术问题是,为了克服现有技术的不足,提供一种从蛋白结构信息和生物学特性两方面出发,结合结构域信息和go注释中包含的蛋白生物过程、分子功能、亚细胞位置信息的基于结构域和go注释的蛋白互作关系预测方法。
[0018]
本发明所采用的技术方案是:一种基于结构域和go注释的蛋白互作关系预测方法,包括如下步骤:
[0019]
1)数据下载,包括:
[0020]
(1.1)从string数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据;
[0021]
(1.2)下载目标物种结构域数据;
[0022]
(1.3)下载目标物种的蛋白go注释数据;
[0023]
2)进行数据预处理,包括:
[0024]
(2.1)目标物种序列比对;
[0025]
(2.2)go注释分类;
[0026]
(2.3)整合目标物种数据;
[0027]
3)生成目标物种数据集,包括:
[0028]
(3.1)随机生成非互作蛋白,生成目标物种预处理数据;
[0029]
(3.2)将目标物种数据用特征向量表示;
[0030]
(3.3)生成目标物种数据集;
[0031]
4)目标物种蛋白互作关系预测
[0032]
(4.1)蛋白互作关系预测模型的构建及参数优化;
[0033]
(4.2)蛋白互作关系预测;
[0034]
(4.3)蛋白互作关系预测结果的评价。
[0035]
本发明的一种基于结构域和go注释的蛋白互作关系预测方法,具有如下优点:
[0036]
1、本发明的方法结合结构域信息和go注释信息,更符合蛋白互作的生物学特性。
[0037]
2、go注释包含三个部分:生物过程、分子功能和亚细胞位置。其中生物过程和分子功能均未在其他方法中用作蛋白互作关系预测的特征,本发明的方法引入了这两种新的特征,提高了预测的准确率。
[0038]
3、本发明的方法中采用第四层级go注释作为特征,注释信息比1-3层更加精确。另一方面,所有第四层级go注释均作为模型预测的特征,特征数量多,覆盖具备go注释特征的蛋白范围大。
附图说明
[0039]
图1是本发明一种基于结构域和go注释的蛋白互作关系预测方法的流程图。
具体实施方式
[0040]
下面结合实施例和附图对本发明的一种基于结构域和go注释的蛋白互作关系预测方法做出详细说明。
[0041]
如图1所示,本发明的一种基于结构域和go注释的蛋白互作关系预测方法,包括如下步骤:
[0042]
1)数据下载,包括:
[0043]
(1.1)从string数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据;
[0044]
从string数据库(https://cn.string-db.org)搜索目标物种,下载其蛋白序列文件和蛋白互作关系文件。
[0045]
(1.2)下载目标物种结构域数据;
[0046]
从pfam数据库(http://pfam.org)下载最新的适用于hmmer软件分析的结构域数据。
[0047]
(1.3)下载目标物种的蛋白go注释数据;
[0048]
提取1.1目标物种蛋白序列文件中所有的蛋白序列id并保存到一个文本文件中,在uniprot数据库(https://www.uniprot.org)的在线查询工具导入该文本文件,获得每个目标物种蛋白的go注释数据。
[0049]
2)进行数据预处理,包括:
[0050]
(2.1)目标物种序列比对;
[0051]
所述的目标物种序列比对,是通过hmmer软件(http://www.hmmer.org)下载hmmer比对工具并安装,利用hmmer比对工具将目标物种结构域数据和有蛋白互作关系的目
标物种蛋白序列数据进行比对,获得每个有互作关系的目标物种蛋白对应的结构域数据,供之后的操作提取特征。
[0052]
(2.2)go注释分类;
[0053]
所述的go注释分类,是通过geneontology数据库(http://geneontology.org)下载包含go注释层级关系的go-basic.obo文件,通过不同go注释之间的层级关系向上回溯将所有go注释归类。例如在obo文件中go:0000001具有注释is_a:go:0048308,表示go:0000001的上一层级为go:0048308,以此类推对每个go注释进行层级回溯。分类好的go注释第一层级有3大类:生物过程、分子功能和亚细胞位置,本方法经过前期测试发现采用第四层级go注释作为特征进行分类的效果最好。将第四层级go注释作为蛋白特征的一部分,第四层级go注释共包含4769个go注释。
[0054]
(2.3)整合目标物种数据
[0055]
所述的整合目标物种数据,是将目标物种蛋白的go注释按照go注释的层级结构匹配到第四层级go注释,使蛋白的go注释均用第四层级go注释表示;随后将目标物种蛋白序列数据中的蛋白序列id、每个有互作关系的目标物种蛋白对应的结构域数据和每个目标物种蛋白的第四层级go注释数据相对应并列表,以便后续生成目标物种数据集。
[0056]
3)生成目标物种数据集,包括:
[0057]
(3.1)随机生成非互作蛋白,生成目标物种预处理数据;
[0058]
所述的随机生成目标物种非蛋白互作关系数据,进行蛋白互作关系预测需要具备同等数量的蛋白互作关系数据和非蛋白互作关系数据,但是从string数据库下载的目标物种蛋白互作关系数据中不包含目标物种的非蛋白互作关系数据,因此需要生成目标物种的非互作蛋白关系数据。具体进行如下过程:
[0059]
(3.1.1)将目标物种蛋白互作关系数据中可信度分数大于等于900分以上的蛋白互作关系,构成目标物种蛋白互作关系数据集;
[0060]
(3.1.2)随机选择目标物种蛋白互作关系数据集中的任意两个蛋白,在下载的目标物种蛋白互作关系数据中搜索这两个蛋白,判断这两个蛋白是否存在蛋白互作关系,是则为蛋白互作关系的数据,若没有查询到两个蛋白存在蛋白互作关系,则判定这两个蛋白为非互作关系蛋白,并作为非蛋白互作关系数据集中的一组数据;
[0061]
(3.1.3)重复第(3.1.2)步,直至非蛋白互作关系数据集中的非蛋白互作关系的蛋白对与目标物种蛋白互作关系数据集中的具有蛋白互作关系的蛋白对数量相同;
[0062]
(3.1.4)将非蛋白互作关系数据集与目标物种蛋白互作关系数据集进行合并,构成目标物种预处理数据。
[0063]
(3.2)将目标物种数据用特征向量表示;
[0064]
所述的将目标物种数据用特征向量表示,是因要将目标物种的蛋白结构域和go注释作为特征进行蛋白互作关系预测,需要先将蛋白数据转化为特征向量,以提升匹配蛋白信息的效率。具体如下:
[0065]
首先,用目标物种蛋白对应的结构域数据和目标物种蛋白的第四层级go注释数据代表向量的维度,也就是蛋白的特征;
[0066]
随后,对于目标物种预处理数据中的每个目标物种蛋白,在具有特征的位置上标记1,在不具有特征的位置上标记0,最终将蛋白数据转化为以0和1表示的特征向量。
[0067]
(3.3)生成目标物种数据集;
[0068]
所述的生成目标物种数据集,包括:
[0069]
(3.3.1)分别将目标物种预处理数据中所有具有蛋白关系的两个蛋白a、b以特征向量的形式拼接,具体是将具有蛋白关系的两个蛋白的特征向量相连,即蛋白a特征向量+蛋白b特征向量,从而生成第一新的特征向量;
[0070]
(3.3.2)分别将目标物种预处理数据中所有具有蛋白关系的两个蛋白a、b顺序互换后再次以向量的形式拼接,即蛋白b特征向量+蛋白a特征向量,从而生成第二新的特征向量;
[0071]
(3.3.3)将第一新的特征向量和第二新的特征向量共同构成目标物种数据集;
[0072]
(3.3.4)为了防止具有相似特征的数据过于集中导致蛋白互作关系预测模型预测时过度拟合,需要将目标物种数据集中的蛋白关系完全打乱后保存。
[0073]
4)目标物种蛋白互作关系预测
[0074]
(4.1)蛋白互作关系预测模型的构建及参数优化;
[0075]
所述的蛋白互作关系预测模型的构建及参数优化,包括:
[0076]
(4.1.1)选用libsvm算法的rbf核与目标物种数据集共同构成蛋白互作关系预测模型;
[0077]
(4.1.2)对rbf核中的两个参数c和γ进行优化,具体是将目标物种数据集导入python软件libsvm工具包中的grid.py函数,利用grid.py函数自动计算适用于目标物种数据集的最优参数c和γ;
[0078]
(4.1.3)记录计算得到的最优参数,用于蛋白互作关系预测的参数设置。
[0079]
(4.2)蛋白互作关系预测;
[0080]
所述的蛋白互作关系预测,是将目标物种数据集导入蛋白互作关系预测模型对目标物种的蛋白互作关系进行预测,c和γ参数选择通过grid.py函数自动计算得到的适用于目标物种数据集的最优参数c和γ,交叉验证的参数设置为5,将目标物种数据集导入蛋白互作关系预测模型,进行蛋白互作关系预测,并且,蛋白互作关系预测模型自动将目标物种数据集划分成5个交叉验证数据集,在蛋白互作关系预测的同时进行五折交叉验证。
[0081]
(4.3)蛋白互作关系预测结果的评价。
[0082]
所述的蛋白互作关系预测结果的评价,是为了评估蛋白互作关系预测的结果,包括:
[0083]
(4.3.1)计算出以下四个值:正确预测的蛋白互作关系数量tp,正确预测的非蛋白互作关系数量fn,被错误预测为蛋白互作关系的非蛋白互作关系数量fp,被错误预测为非蛋白互作关系的蛋白互作关系数量fn;
[0084]
(4.3.2)利用四个参数:准确性acc、敏感性sn、特异性spe、精度pre,对蛋白互作关系预测模型的表现进行评估;计算公式如下:
[0085][0086]
[0087][0088][0089]
其中acc表示预测正确的数据占总数据的比例,是最直观的评价指标;sn表示预测正确的蛋白互作关系在所有蛋白关系中的占比,spe表示预测正确的非蛋白互作关系在所有非蛋白互作关系中的占比,从sn和spe这两个指标看出蛋白互作关系预测模型用于蛋白互作关系预测的最优超平面是更靠近正样本还是负样本,根据spe调整蛋白互作关系预测模型的参数,提升分类效果;pre表示所有被预测为蛋白互作关系的结果中真正的蛋白互作关系的比例,通过这个参数能够看出蛋白互作关系预测模型是否存在过拟合;当acc,sn,spe,pre均大于90%时,表明蛋白互作关系预测结果准确。
[0090]
下面给出具体实例:
[0091]
实例1:家蚕数据分类
[0092]
1、数据下载
[0093]
1.1、下载家蚕蛋白序列和蛋白互作关系数据
[0094]
从string数据库(https://cn.string-db.org)搜索家蚕(bombyxmori,ncbi taxon-id:7091),下载其蛋白序列文件和蛋白互作关系文件。下载的文件中包含家蚕14623个蛋白的3258119个蛋白互作关系。
[0095]
1.2、下载结构域数据
[0096]
从pfam数据库(http://pfam.org)下载最新的适用于hmmer软件分析的结构域数据pfam-a.hmm。
[0097]
1.3、下载家蚕的蛋白go注释数据
[0098]
提取1.1家蚕蛋白序列文件中所有的蛋白序列id并保存到一个文本文件中,在uniprot数据库(https://www.uniprot.org)的在线查询工具导入该文本文件,获得每个家蚕蛋白的go注释数据。
[0099]
2、数据预处理
[0100]
2.1、序列比对
[0101]
通过hmmer软件(http://www.hmmer.org)下载hmmer比对工具并安装,利用hmmer比对工具将家蚕结构域数据和有蛋白互作关系的家蚕蛋白序列数据进行比对,获得每个有互作关系的家蚕蛋白对应的结构域数据,供之后的操作提取特征。
[0102]
2.2、go注释分类
[0103]
通过geneontology数据库(http://geneontology.org)下载包含go注释层级关系的go-basic.obo文件,通过不同go注释之间的层级关系向上回溯将所有go注释归类。例如在obo文件中go:0000001具有注释is_a:go:0048308,表示go:0000001的上一层级为go:0048308,以此类推对每个go注释进行层级回溯。分类好的go注释第一层级有3大类:生物过程、分子功能和亚细胞位置,本方法经过前期测试发现采用第四层级go注释作为特征进行分类的效果最好。将第四层级go注释作为蛋白特征的一部分,第四层级go注释共包含4769个go注释。
[0104]
2.3、整合家蚕数据
[0105]
将家蚕蛋白的go注释按照go注释的层级结构匹配到第四层级go注释,使蛋白的go注释均用第四层级go注释表示;随后将家蚕蛋白序列数据中的蛋白序列id、每个有互作关系的家蚕蛋白对应的结构域数据和每个家蚕蛋白的第四层级go注释数据相对应并列表,以便后续生成家蚕数据集。
[0106]
3、生成家蚕数据集
[0107]
3.1、随机生成非互作蛋白,生成家蚕预处理数据
[0108]
进行蛋白互作关系预测需要具备同等数量的蛋白互作关系数据和非蛋白互作关系数据,但是从string数据库下载的家蚕蛋白互作关系数据中不包含家蚕的非蛋白互作关系数据,因此需要生成家蚕的非互作蛋白关系数据。具体进行如下过程:
[0109]
(3.1.1)将家蚕蛋白互作关系数据中可信度分数大于等于900分以上的蛋白互作关系,构成家蚕蛋白互作关系数据集,得到81527对互作蛋白;
[0110]
(3.1.2)随机选择家蚕蛋白互作关系数据集中的任意两个蛋白,在下载的家蚕蛋白互作关系数据中搜索这两个蛋白,判断这两个蛋白是否存在蛋白互作关系,是则为蛋白互作关系的数据,若没有查询到两个蛋白存在蛋白互作关系,则判定这两个蛋白为非互作关系蛋白,并作为非蛋白互作关系数据集中的一组数据;
[0111]
(3.1.3)重复第(3.1.2)步,直至非蛋白互作关系数据集中的具有非蛋白互作关系的蛋白对与家蚕蛋白互作关系数据集中的具有蛋白互作关系的蛋白对数量相同,最终得到81527对非互作蛋白;
[0112]
(3.1.4)将非蛋白互作关系数据集与家蚕蛋白互作关系数据集进行合并,构成家蚕预处理数据,得到共163054对蛋白。
[0113]
3.2、将家蚕数据用特征向量表示
[0114]
因要将家蚕的蛋白结构域和go注释作为特征进行蛋白互作关系预测,需要先将蛋白数据转化为特征向量,以提升匹配蛋白信息的效率。具体如下:
[0115]
首先,用家蚕蛋白对应的结构域数据和家蚕蛋白的第四层级go注释数据代表向量的维度,也就是蛋白的特征,特征共包含5296个结构域和1430个第四层级go注释;
[0116]
随后,对于家蚕预处理数据中的每个家蚕蛋白,在具有特征的位置上标记1,在不具有特征的位置上标记0,最终将蛋白数据转化为以0和1表示的特征向量。每个蛋白由一个维度为6726的特征向量表示。
[0117]
3.3、生成家蚕数据集
[0118]
(3.3.1)分别将家蚕预处理数据中所有具有蛋白关系的两个蛋白a、b以特征向量的形式拼接,具体是将具有蛋白关系的两个蛋白的特征向量相连,即蛋白a特征向量+蛋白b特征向量,从而生成第一新的特征向量;
[0119]
(3.3.2)分别将家蚕预处理数据中所有具有蛋白关系的两个蛋白a、b顺序互换后再次以向量的形式拼接,即蛋白b特征向量+蛋白a特征向量,从而生成第二新的特征向量;
[0120]
(3.3.3)将第一新的特征向量和第二新的特征向量共同构成家蚕数据集;
[0121]
(3.3.4)为了防止具有相似特征的数据过于集中导致蛋白互作关系预测模型预测时过度拟合,需要将家蚕数据集中的蛋白关系完全打乱后保存。家蚕数据集共包含326108个蛋白对,特征向量的维度是13452。
[0122]
4、libsvm分类
[0123]
4.1、分类参数优化
[0124]
(4.1.1)选用libsvm算法的rbf核与家蚕数据集共同构成蛋白互作关系预测模型;
[0125]
(4.1.2)对rbf核中的两个参数c和γ进行优化,具体是将家蚕数据集导入python软件libsvm工具包中的grid.py函数,利用grid.py函数自动计算适用于家蚕数据集的最优参数c和γ;
[0126]
(4.1.3)记录计算得到的最优参数,用于蛋白互作关系预测的参数设置。最终得到的最优参数是c=32,γ=0.125。
[0127]
4.2、模型训练及预测
[0128]
将家蚕数据集导入蛋白互作关系预测模型对家蚕的蛋白互作关系进行预测,c和γ参数选择通过grid.py函数自动计算得到的适用于家蚕数据集的最优参数c=32,γ=0.125,交叉验证的参数设置为5,将家蚕数据集导入蛋白互作关系预测模型,进行蛋白互作关系预测,并且,蛋白互作关系预测模型自动将家蚕数据集划分成5个交叉验证数据集,在蛋白互作关系预测的同时进行五折交叉验证。
[0129]
4.3预测结果的评价
[0130]
为了评估蛋白互作关系预测的结果,进行如下过程:
[0131]
(4.3.1)计算出以下四个值:正确预测的蛋白互作关系数量tp,正确预测的非蛋白互作关系数量fn,被错误预测为蛋白互作关系的非蛋白互作关系数量fp,被错误预测为非蛋白互作关系的蛋白互作关系数量fn。经计算:tp=77445,fn=79468,fp=4082,fn=2059;
[0132]
(4.3.2)利用四个参数:准确性acc、敏感性sn、特异性spe、精度pre,对蛋白互作关系预测模型的表现进行评估;计算公式如下:
[0133][0134][0135][0136][0137]
其中acc表示预测正确的数据占总数据的比例,是最直观的评价指标;sn表示预测正确的蛋白互作关系在所有蛋白关系中的占比,spe表示预测正确的非蛋白互作关系在所有非蛋白互作关系中的占比,从sn和spe这两个指标看出蛋白互作关系预测模型用于蛋白互作关系预测的最优超平面是更靠近正样本还是负样本,根据spe调整蛋白互作关系预测模型的参数,提升分类效果;pre表示所有被预测为蛋白互作关系的结果中真正的蛋白互作关系的比例,通过这个参数能够看出蛋白互作关系预测模型是否存在过拟合;当acc,sn,spe,pre均大于90%时,表明蛋白互作关系预测结果准确。
[0138]
按照准确性(acc)、敏感性(sn)、特异性(spe)、精度(pre)的公式计算这四个参数,结果为:acc=96.173%,sn=97.069%,spe=95.303%,pre=95.252%,acc,sn,spe,pre均大于90%,表明蛋白互作关系预测结果准确。
[0139]
实例2:凡纳滨对虾数据分类
[0140]
1、数据下载
[0141]
1.1、下载凡纳滨对虾蛋白序列和蛋白互作关系数据
[0142]
从string数据库(https://cn.string-db.org)搜索凡纳滨对虾(litopenaeusvannamei,ncbi taxon-id:6689),下载其蛋白序列文件和蛋白互作关系文件。下载的文件中包含凡纳滨对虾25399个蛋白的3418207个蛋白互作关系。
[0143]
1.2、下载结构域数据
[0144]
从pfam数据库(http://pfam.org)下载最新的适用于hmmer软件分析的结构域数据pfam-a.hmm。
[0145]
(1.2.1)下载凡纳滨对虾的蛋白go注释数据
[0146]
提取1.1凡纳滨对虾蛋白序列文件中所有的蛋白序列id并保存到一个文本文件中,在uniprot数据库(https://www.uniprot.org)的在线查询工具导入该文本文件,获得每个凡纳滨对虾蛋白的go注释数据。
[0147]
2、数据预处理
[0148]
2.1、序列比对
[0149]
通过hmmer软件(http://www.hmmer.org)下载hmmer比对工具并安装,利用hmmer比对工具将凡纳滨对虾结构域数据和有蛋白互作关系的凡纳滨对虾蛋白序列数据进行比对,获得每个有互作关系的凡纳滨对虾蛋白对应的结构域数据,供之后的操作提取特征。
[0150]
2.2、go注释分类
[0151]
通过geneontology数据库(http://geneontology.org)下载包含go注释层级关系的go-basic.obo文件,通过不同go注释之间的层级关系向上回溯将所有go注释归类。例如在obo文件中go:0000001具有注释is_a:go:0048308,表示go:0000001的上一层级为go:0048308,以此类推对每个go注释进行层级回溯。分类好的go注释第一层级有3大类:生物过程、分子功能和亚细胞位置,本方法经过前期测试发现采用第四层级go注释作为特征进行分类的效果最好。将第四层级go注释作为蛋白特征的一部分,第四层级go注释共包含4769个go注释。
[0152]
2.3、整合凡纳滨对虾数据
[0153]
将凡纳滨对虾蛋白的go注释按照go注释的层级结构匹配到第四层级go注释,使蛋白的go注释均用第四层级go注释表示;随后将凡纳滨对虾蛋白序列数据中的蛋白序列id、每个有互作关系的凡纳滨对虾蛋白对应的结构域数据和每个凡纳滨对虾蛋白的第四层级go注释数据相对应并列表,以便后续生成凡纳滨对虾数据集。
[0154]
3、生成凡纳滨对虾数据集
[0155]
3.1、随机生成非互作蛋白,生成凡纳滨对虾预处理数据
[0156]
进行蛋白互作关系预测需要具备同等数量的蛋白互作关系数据和非蛋白互作关系数据,但是从string数据库下载的凡纳滨对虾蛋白互作关系数据中不包含凡纳滨对虾的非蛋白互作关系数据,因此需要生成凡纳滨对虾的非互作蛋白关系数据。具体进行如下过程:
[0157]
(3.1.1)将凡纳滨对虾蛋白互作关系数据中可信度分数大于等于900分以上的蛋
白互作关系,构成凡纳滨对虾蛋白互作关系数据集,得到50822对互作蛋白;
[0158]
(3.1.2)随机选择凡纳滨对虾蛋白互作关系数据集中的任意两个蛋白,在下载的凡纳滨对虾蛋白互作关系数据中搜索这两个蛋白,判断这两个蛋白是否存在蛋白互作关系,是则为蛋白互作关系的数据,若没有查询到两个蛋白存在蛋白互作关系,则判定这两个蛋白为非互作关系蛋白,并作为非蛋白互作关系数据集中的一组数据;
[0159]
(3.1.3)重复第(3.1.2)步,直至非蛋白互作关系数据集中的具有非蛋白互作关系的蛋白对与凡纳滨对虾蛋白互作关系数据集中的具有蛋白互作关系的蛋白对数量相同,最终得到50822对非互作蛋白;
[0160]
(3.1.4)将非蛋白互作关系数据集与凡纳滨对虾蛋白互作关系数据集进行合并,构成凡纳滨对虾预处理数据,得到共101644对蛋白。
[0161]
3.2将凡纳滨对虾数据用特征向量表示
[0162]
因要将凡纳滨对虾的蛋白结构域和go注释作为特征进行蛋白互作关系预测,需要先将蛋白数据转化为特征向量,以提升匹配蛋白信息的效率。具体如下:
[0163]
首先,用凡纳滨对虾蛋白对应的结构域数据和凡纳滨对虾蛋白的第四层级go注释数据代表向量的维度,也就是蛋白的特征,特征共包含4826个结构域和1366个第四层级go注释;
[0164]
随后,对于凡纳滨对虾预处理数据中的每个凡纳滨对虾蛋白,在具有特征的位置上标记1,在不具有特征的位置上标记0,最终将蛋白数据转化为以0和1表示的特征向量。每个蛋白由一个维度为6192的特征向量表示。
[0165]
3.3、生成凡纳滨对虾数据集
[0166]
(3.3.1)分别将凡纳滨对虾预处理数据中所有具有蛋白关系的两个蛋白a、b以特征向量的形式拼接,具体是将具有蛋白关系的两个蛋白的特征向量相连,即蛋白a特征向量+蛋白b特征向量,从而生成第一新的特征向量;
[0167]
(3.3.2)分别将凡纳滨对虾预处理数据中所有具有蛋白关系的两个蛋白a、b顺序互换后再次以向量的形式拼接,即蛋白b特征向量+蛋白a特征向量,从而生成第二新的特征向量;
[0168]
(3.3.3)将第一新的特征向量和第二新的特征向量共同构成凡纳滨对虾数据集;
[0169]
(3.3.4)为了防止具有相似特征的数据过于集中导致蛋白互作关系预测模型预测时过度拟合,需要将凡纳滨对虾数据集中的蛋白关系完全打乱后保存。凡纳滨对虾数据集共包含203288个蛋白对,特征向量的维度是12384。
[0170]
4、libsvm分类
[0171]
4.1、分类参数优化
[0172]
(4.1.1)选用libsvm算法的rbf核与凡纳滨对虾数据集共同构成蛋白互作关系预测模型;
[0173]
(4.1.2)对rbf核中的两个参数c和γ进行优化,具体是将凡纳滨对虾数据集导入python软件libsvm工具包中的grid.py函数,利用grid.py函数自动计算适用于凡纳滨对虾数据集的最优参数c和γ;
[0174]
(4.1.3)记录计算得到的最优参数,用于蛋白互作关系预测的参数设置。最终得到的最优参数是c=32,γ=0.078125。
[0175]
4.2、模型训练及预测
[0176]
将凡纳滨对虾数据集导入蛋白互作关系预测模型对凡纳滨对虾的蛋白互作关系进行预测,c和γ参数选择通过grid.py函数自动计算得到的适用于凡纳滨对虾数据集的最优参数c=32,γ=0.078125,交叉验证的参数设置为5,将凡纳滨对虾数据集导入蛋白互作关系预测模型,进行蛋白互作关系预测,并且,蛋白互作关系预测模型自动将凡纳滨对虾数据集划分成5个交叉验证数据集,在蛋白互作关系预测的同时进行五折交叉验证。
[0177]
4.3、预测结果的评价
[0178]
为了评估蛋白互作关系预测的结果,进行如下过程:
[0179]
(4.3.1)计算出以下四个值:正确预测的蛋白互作关系数量tp,正确预测的非蛋白互作关系数量fn,被错误预测为蛋白互作关系的非蛋白互作关系数量fp,被错误预测为非蛋白互作关系的蛋白互作关系数量fn。经计算:tp=48275,fn=46652,fp=2247,fn=4290;
[0180]
(4.3.2)利用四个参数:准确性acc、敏感性sn、特异性spe、精度pre,对蛋白互作关系预测模型的表现进行评估;计算公式如下:
[0181][0182][0183][0184][0185]
其中acc表示预测正确的数据占总数据的比例,是最直观的评价指标;sn表示预测正确的蛋白互作关系在所有蛋白关系中的占比,spe表示预测正确的非蛋白互作关系在所有非蛋白互作关系中的占比,从sn和spe这两个指标看出蛋白互作关系预测模型用于蛋白互作关系预测的最优超平面是更靠近正样本还是负样本,根据spe调整蛋白互作关系预测模型的参数,提升分类效果;pre表示所有被预测为蛋白互作关系的结果中真正的蛋白互作关系的比例,通过这个参数能够看出蛋白互作关系预测模型是否存在过拟合;当acc,sn,spe,pre均大于90%时,表明蛋白互作关系预测结果准确。
[0186]
按照准确性(acc)、敏感性(sn)、特异性(spe)、精度(pre)的公式计算这四个参数,结果为:acc=93.392%,sn=95.192%,spe=91.592%,pre=91.884%,acc,sn,spe,pre均大于90%,表明蛋白互作关系预测结果准确。
技术特征:
1.一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,包括如下步骤:1)数据下载,包括:(1.1)从string数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据;(1.2)下载目标物种结构域数据;(1.3)下载目标物种的蛋白go注释数据;2)进行数据预处理,包括:(2.1)目标物种序列比对;(2.2)go注释分类;(2.3)整合目标物种数据;3)生成目标物种数据集,包括:(3.1)随机生成非互作蛋白,生成目标物种预处理数据;(3.2)将目标物种数据用特征向量表示;(3.3)生成目标物种数据集;4)目标物种蛋白互作关系预测(4.1)蛋白互作关系预测模型的构建及参数优化;(4.2)蛋白互作关系预测;(4.3)蛋白互作关系预测结果的评价。2.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤2)第(2.1)步所述的目标物种序列比对,是通过hmmer软件下载hmmer比对工具并安装,利用hmmer比对工具将目标物种结构域数据和有蛋白互作关系的目标物种蛋白序列数据进行比对,获得每个有互作关系的目标物种蛋白对应的结构域数据。3.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤2)第(2.2)步所述的go注释分类,是通过geneontology数据库下载包含go注释层级关系的go-basic.obo文件,通过不同go注释之间的层级关系向上回溯将所有go注释归类。将第四层级go注释作为蛋白特征的一部分,第四层级go注释共包含4769个go注释。4.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤2)第(2.3)步所述的整合目标物种数据,是将目标物种蛋白的go注释按照go注释的层级结构匹配到第四层级go注释,使蛋白的go注释均用第四层级go注释表示;随后将目标物种蛋白序列数据中的蛋白序列id、每个有互作关系的目标物种蛋白对应的结构域数据和每个目标物种蛋白的第四层级go注释数据相对应并列表。5.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤3)第(3.1)步所述的随机生成目标物种非蛋白互作关系数据,进行蛋白互作关系预测需要具备同等数量的蛋白互作关系数据和非蛋白互作关系数据,但是从string数据库下载的目标物种蛋白互作关系数据中不包含目标物种的非蛋白互作关系数据,因此需要生成目标物种的非互作蛋白关系数据。具体进行如下过程:(3.1.1)将目标物种蛋白互作关系数据中可信度分数大于等于900分以上的蛋白互作关系,构成目标物种蛋白互作关系数据集;(3.1.2)随机选择目标物种蛋白互作关系数据集中的任意两个蛋白,在下载的目标物种蛋白互作关系数据中搜索这两个蛋白,判断这两个蛋白是否存在蛋白互作关系,是则为
蛋白互作关系的数据,若没有查询到两个蛋白存在蛋白互作关系,则判定这两个蛋白为非互作关系蛋白,并作为非蛋白互作关系数据集中的一组数据;(3.1.3)重复第(3.1.2)步,直至非蛋白互作关系数据集中的非蛋白互作关系的蛋白对与目标物种蛋白互作关系数据集中的具有蛋白互作关系的蛋白对数量相同;(3.1.4)将非蛋白互作关系数据集与目标物种蛋白互作关系数据集进行合并,构成目标物种预处理数据。6.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤3)第(3.2)步所述的将目标物种数据用特征向量表示:首先,用目标物种蛋白对应的结构域数据和目标物种蛋白的第四层级go注释数据代表向量的维度,也就是蛋白的特征;随后,对于目标物种预处理数据中的每个目标物种蛋白,在具有特征的位置上标记1,在不具有特征的位置上标记0,最终将蛋白数据转化为以0和1表示的特征向量。7.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤3)第(3.3)步所述的生成目标物种数据集,包括:(3.3.1)分别将目标物种预处理数据中所有具有蛋白关系的两个蛋白a、b以特征向量的形式拼接,具体是将具有蛋白关系的两个蛋白的特征向量相连,即蛋白a特征向量+蛋白b特征向量,从而生成第一新的特征向量;(3.3.2)分别将目标物种预处理数据中所有具有蛋白关系的两个蛋白a、b顺序互换后再次以向量的形式拼接,即蛋白b特征向量+蛋白a特征向量,从而生成第二新的特征向量;(3.3.3)将第一新的特征向量和第二新的特征向量共同构成目标物种数据集;(3.3.4)将目标物种数据集中的蛋白关系完全打乱后保存。8.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤4)第(4.1)步所述的蛋白互作关系预测模型的构建及参数优化,包括:(4.1.1)选用libsvm算法的rbf核与目标物种数据集共同构成蛋白互作关系预测模型;(4.1.2)对rbf核中的两个参数c和γ进行优化,具体是将目标物种数据集导入python软件libsvm工具包中的grid.py函数,利用grid.py函数自动计算适用于目标物种数据集的最优参数c和γ;(4.1.3)记录计算得到的最优参数,用于蛋白互作关系预测的参数设置。9.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤4)第(4.2)步所述的蛋白互作关系预测,是将目标物种数据集导入蛋白互作关系预测模型对目标物种的蛋白互作关系进行预测,c和γ参数选择通过grid.py函数自动计算得到的适用于目标物种数据集的最优参数c和γ,交叉验证的参数设置为5,将目标物种数据集导入蛋白互作关系预测模型,进行蛋白互作关系预测,并且,蛋白互作关系预测模型自动将目标物种数据集划分成5个交叉验证数据集,在蛋白互作关系预测的同时进行五折交叉验证。10.根据权利要求1所述的一种基于结构域和go注释的蛋白互作关系预测方法,其特征在于,步骤4)第(4.3)步所述的蛋白互作关系预测结果的评价,包括:(4.3.1)计算出以下四个值:正确预测的蛋白互作关系数量tp,正确预测的非蛋白互作关系数量fn,被错误预测为蛋白互作关系的非蛋白互作关系数量fp,被错误预测为非蛋白
互作关系的蛋白互作关系数量fn;(4.3.2)利用四个参数:准确性acc、敏感性sn、特异性spe、精度pre,对蛋白互作关系预测模型的表现进行评估;计算公式如下:测模型的表现进行评估;计算公式如下:测模型的表现进行评估;计算公式如下:测模型的表现进行评估;计算公式如下:其中acc表示预测正确的数据占总数据的比例,是最直观的评价指标;sn表示预测正确的蛋白互作关系在所有蛋白关系中的占比,spe表示预测正确的非蛋白互作关系在所有非蛋白互作关系中的占比,从sn和spe这两个指标看出蛋白互作关系预测模型用于蛋白互作关系预测的最优超平面是更靠近正样本还是负样本,根据spe调整蛋白互作关系预测模型的参数,提升分类效果;pre表示所有被预测为蛋白互作关系的结果中真正的蛋白互作关系的比例,通过这个参数能够看出蛋白互作关系预测模型是否存在过拟合;当acc,sn,spe,pre均大于90%时,表明蛋白互作关系预测结果准确。
技术总结
一种基于结构域和GO注释的蛋白互作关系预测方法:数据下载,包括:从STRIG数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据,下载目标物种结构域数据,下载目标物种的蛋白GO注释数据;进行数据预处理:目标物种序列比对,GO注释分类,整合目标物种数据;生成目标物种数据集:随机生成非互作蛋白,生成目标物种预处理数据,将目标物种数据用特征向量表示,生成目标物种数据集;目标物种蛋白互作关系预测:蛋白互作关系预测模型的构建及参数优化,蛋白互作关系预测;蛋白互作关系预测结果的评价。本发明更符合蛋白互作的生物学特性,提高了预测的准确率,特征数量多,覆盖具备GO注释特征的蛋白范围大。GO注释特征的蛋白范围大。GO注释特征的蛋白范围大。
