与年龄相关的胃癌血细胞恶性突变基因预测方法及系统与流程
1.本发明涉及基于计算机的生物信息处理技术领域,具体涉及一种与年龄相关的胃癌血细胞恶性突变基因预测方法及系统。
背景技术:
2.胃癌的提早筛查、定期筛查、快速筛查对于胃癌尤为重要。
3.细胞内基因组发生恶性突变是导致癌症的主要原因。研究表明,基因突变是无方向性的,少数突变会导致细胞无限增殖,也就是广义的恶性突变基因。目前,对于人体细胞基因突变的检测、分析技术已经成熟,实现了从海量基因序列中检测出恶性突变基因。
4.目前,筛查胃癌时的基因检测大多是利用生物技术朴素地检测患者细胞内的全部基因,费时费力,效率低下,成本较高。近年来,随着计算机技术的发展,利用计算机技术可以解决生物学上的问题成为了研究热点。
技术实现要素:
5.本发明的目的在于提供一种与年龄相关的胃癌血细胞恶性突变基因预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
6.为了实现上述目的,本发明采取了如下技术方案:
7.一方面,本发明提供一种与年龄相关的胃癌血细胞恶性突变基因预测方法,包括:
8.将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
9.基于所有患者的突变基因得到全部突变基因集合;
10.分别获取每个患者对应的血细胞恶性突变基因和年龄;
11.以患者血细胞恶性突变基因为特征,对其按年龄的分类;
12.对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
13.优选的,对于胃癌患者血细胞突变基因检测结果的maf格式文件,转换成csv格式文件;基于所有患者的突变基因得到全部突变基因集合;基于annovar结果的sift_pred指标定义某个突变基因g属于恶性突变基因m或良性突变基因b,定义如下:
[0014][0015]
优选的,以患者血细胞恶性突变基因为特征,对其按年龄的分类,包括:
[0016]
全部胃癌患者对应的恶性突变基因矩阵a∈rm×n,定义长度为n的突变基因集合x,患者人数m;
[0017]
利用支持向量(support vector machine,svm)分类,判别模型为:
[0018]
f(w)=sign(w
t
x+b)
[0019]
定义l(w)为模型的损失函数,表示为:
[0020][0021]
式中,lh(xi)表示hinge loss,表示为:lh(xi)=[1-y
·
(w
·
x+b)]
+
。
[0022]
优选的,特征矩阵w表示恶性突变基因矩阵a,b表示偏置,sign(
·
)表示符号函数,定义为:
[0023][0024]wt
x+b是负责分类的超平面,定义样本点(xi,yi)到超平面距离d如下:
[0025][0026]
以支持向量到超平面的距离最远为目标函数:
[0027][0028]
式中,通过控制xi选中支持向量;通过控制w和b使得该样本点到超平面的距离最远。
[0029]
优选的,由约束条件,进行缩放,令(w
t
xi+b)yi=1,目标函数变为:
[0030][0031]
对约束条件进一变换:
[0032][0033]
对于优化问题,目标函数通常为求函数的最小值,目标函数变为:
[0034][0035]
使用拉格朗日乘数法求解最优化问题:
[0036][0037]
求解时,对入和b偏导,使其偏导为0,即:
[0038][0039]
优选的,基于python语言,利用sklearn工具包,使用svm算法对胃癌患者按年龄分类,包括:划分训练集和测试集,分别使用线性核linear、高斯核rbf和多项式核poly进行分类,采用硬间隔分类,惩罚系数c设置为1.0,多项式核的最高次项系数degree设置为2;为验
证模型是否被正确训练,测试了模型使用多项式核时,两个类别分别在测试集上准确率。
[0040]
优选的,对年龄与恶性突变基因进行相关性分析。包括:
[0041]
把恶性突变基因表示为one-hot vector形式,度量指标分别选择pearson相关系数和spearman相关系数;
[0042]
对于变量x、y,pearson相关系数计算公式如下:
[0043][0044]
式中,cov(x,y)表示x和y的协方差,σ
x
和σy分别表示x和y的标准差。
[0045]
spearman相关系数计算公式如下:
[0046][0047]
式中,di表示秩次的差值,n表示样本个数。
[0048]
第二方面,本发明提供一种与年龄相关的胃癌血细胞恶性突变基因预测系统,包括:
[0049]
转换模块,用于将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0050]
获取模块,用于基于所有患者的突变基因得到全部突变基因集合;
[0051]
提取模块,用于分别获取每个患者对应的血细胞恶性突变基因和年龄;
[0052]
分类模块,用于以患者血细胞恶性突变基因为特征,对其按年龄的分类;
[0053]
分析模块,用于对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
[0054]
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的与年龄相关的胃癌血细胞恶性突变基因预测方法。
[0055]
第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的与年龄相关的胃癌血细胞恶性突变基因预测方法。
[0056]
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的与年龄相关的胃癌血细胞恶性突变基因预测方法的指令。
[0057]
本发明有益效果:通过数据分析算法对胃癌患者血细胞的突变基因进行分析,预测导致胃癌的与年龄相关的恶性突变基因,用于筛查胃癌,节省人力、物力、财力,具有较高的应用价值。
[0058]
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
[0059]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用
的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0060]
图1为本发明实施例所述的预测与年龄相关的胃癌血细胞恶性突变基因的方法流程图。
具体实施方式
[0061]
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0062]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
[0063]
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0064]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
[0065]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0066]
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
[0067]
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
[0068]
实施例1
[0069]
本实施例1提供一种与年龄相关的胃癌血细胞恶性突变基因预测系统,包括:
[0070]
转换模块,用于将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0071]
获取模块,用于基于所有患者的突变基因得到全部突变基因集合;
[0072]
提取模块,用于分别获取每个患者对应的血细胞恶性突变基因和年龄;
[0073]
分类模块,用于以患者血细胞恶性突变基因为特征,对其按年龄的分类;
[0074]
分析模块,用于对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
[0075]
本实施例1中,利用上述的系统,实现了与年龄相关的胃癌血细胞恶性突变基因预测方法,包括:
[0076]
将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0077]
基于所有患者的突变基因得到全部突变基因集合;
[0078]
分别获取每个患者对应的血细胞恶性突变基因和年龄;
[0079]
以患者血细胞恶性突变基因为特征,对其按年龄的分类;
[0080]
对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
[0081]
对于胃癌患者血细胞突变基因检测结果的maf格式文件,转换成csv格式文件;基于所有患者的突变基因得到全部突变基因集合;基于annovar结果的sift_pred指标定义某个突变基因g属于恶性突变基因m或良性突变基因b,定义如下:
[0082][0083]
以患者血细胞恶性突变基因为特征,对其按年龄的分类,包括:
[0084]
全部胃癌患者对应的恶性突变基因矩阵a∈rm×n,定义长度为n的突变基因集合x,患者人数m;
[0085]
利用支持向量(support vector machine,svm)分类,判别模型为:
[0086]
f(w)=sign(w
t
x+b)
[0087]
定义l(w)为模型的损失函数,表示为:
[0088][0089]
式中,lh(xi)表示hinge loss,表示为:lh(xi)=[1-y
·
(w
·
x+b)]
+
。
[0090]
特征矩阵w表示恶性突变基因矩阵a,b表示偏置,sign(
·
)表示符号函数,定义为:
[0091][0092]wt
x+b是负责分类的超平面,定义样本点(xi,yi)到超平面距离d如下:
[0093][0094]
以支持向量到超平面的距离最远为目标函数:
[0095][0096]
式中,通过控制xi选中支持向量;通过控制w和b使得该样本点到超平面的距离最远。
[0097]
由约束条件,进行缩放,令(w
t
xi+b)yi=1,目标函数变为:
[0098][0099]
对约束条件进一变换:
[0100][0101]
对于优化问题,目标函数通常为求函数的最小值,目标函数变为:
[0102][0103]
使用拉格朗日乘数法求解最优化问题:
[0104][0105]
求解时,对λ和b偏导,使其偏导为0,即:
[0106][0107]
基于python语言,利用skleam工具包,使用svm算法对胃癌患者按年龄分类,包括:划分训练集和测试集,分别使用线性核linear、高斯核rbf和多项式核poly进行分类,采用硬间隔分类,惩罚系数c设置为1.0,多项式核的最高次项系数degree设置为2;为验证模型是否被正确训练,测试了模型使用多项式核时,两个类别分别在测试集上准确率。
[0108]
对年龄与恶性突变基因进行相关性分析。包括:
[0109]
把恶性突变基因表示为one-hot vector形式,度量指标分别选择pearson相关系数和spearman相关系数;
[0110]
对于变量x、y,pearson相关系数计算公式如下:
[0111][0112]
式中,cov(x,y)表示x和y的协方差,σ
x
和σy分别表示x和y的标准差。
[0113]
spearman相关系数计算公式如下:
[0114][0115]
式中,di表示秩次的差值,n表示样本个数。
[0116]
实施例2
[0117]
本实施例2中,实施例提供了一种预测与年龄相关的胃癌血细胞恶性突变基因的方法,以实现根据患者年龄检测血细胞的少量基因判断胃癌。包括如下步骤:
[0118]
对于胃癌患者血细胞突变基因检测结果的maf格式文件,转换成csv格式文件;基于所有患者的突变基因得到全部突变基因集合;基于annovar结果的sift_pred指标定义某个突变基因g属于恶性突变基因m或良性突变基因b,定义如下:
[0119]
[0120]
所述的分别获取每个胃癌患者的年龄及其对应血细胞的所有恶性突变基因的个数,包括:
[0121]
全部胃癌患者对应的恶性突变基因矩阵a∈rm×n,定义长度为n的突变基因集合x,患者人数m。以恶性突变基因为特征,年龄k为分类依据将患者分为两类,利用支持向量(support vector machine,svm)对胃癌患者分类,判别模型可以表示为:
[0122]
f(w)=sign(w
t
x+b)
[0123]
式中,特征矩阵w表示恶性突变基因矩阵a,b表示偏置,sign(
·
)表示符号函数,定义为:
[0124][0125]wt
x+b是负责分类的超平面,定义样本点(xi,yi)到超平面距离d如下:
[0126][0127]
希望支持向量到超平面的距离最远,即目标函数为:
[0128][0129]
式中,通过控制xi选中支持向量;通过控制w和b使得该样本点到超平面的距离最远。
[0130]
由约束条件,进行缩放,令(w
t
xi+b)yi=1,目标函数变为:
[0131][0132]
对约束条件进一变换:
[0133][0134]
对于优化问题,目标函数通常为求函数的最小值,目标函数变为:
[0135][0136]
使用拉格朗日乘数法求解最优化问题:
[0137][0138]
求解时,对λ和b偏导,使其偏导为0,即:
[0139][0140]
定义l(w)为模型的损失函数,表示为:
[0141][0142]
式中,lh(xi)表示hinge loss,表示为:
[0143]
lh(xi)=[1-y
·
(w
·
x+b)]
+
[0144]
式中,下标“+”表示取正值的函数。
[0145]
基于python语言,利用skleam工具包,使用svm算法对胃癌患者按年龄分类,包括:
[0146]
划分训练集和测试集,分别使用线性核linear、高斯核rbf和多项式核poly进行分类,采用硬间隔分类,惩罚系数c设置为1.0,多项式核的最高次项系数degree设置为2。为验证模型是否被正确训练,测试了模型使用多项式核时,两个类别分别在测试集上准确率。上述说明可以验证恶性突变基因与患者年龄是否有关。
[0147]
对年龄与恶性突变基因进行相关性分析。包括:
[0148]
把恶性突变基因表示为one-hot vector形式,度量指标分别选择pearson相关系数和spearman相关系数。对于变量x、y,pearson相关系数计算公式如下:
[0149][0150]
式中,cov(x,y)表示x和y的协方差,σ
x
和σy分别表示x和y的标准差。
[0151]
spearman相关系数计算公式如下:
[0152][0153]
式中,di表示秩次的差值,n表示样本个数。
[0154]
实施例3
[0155]
本实施例3中,本发明实施例提供一种与年龄相关的胃癌血细胞恶性突变基因预测方法,首先定义并抽取恶性突变基因,这是因为基因突变的检测结果中,大部分是良性突变。其次,根据恶性突变基因对胃癌患者按年龄分类,探究年龄是否与导致胃癌的恶性突变基因有关。最后,对年龄与恶性突变基因进行相关性分析。
[0156]
本实施例3中,所提供的与年龄相关的胃癌血细胞恶性突变基因预测方法,包括如下步骤:
[0157]
步骤s1、对所有患者的输入原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0158]
步骤s2、基于所有患者的突变基因得到全部突变基因集合,方法为:
[0159]
遍历所有患者的突变基因检测文件,得到个突变基因849种。
[0160]
步骤s3、分别获取每个患者对应的血细胞恶性突变基因和年龄,方法为:
[0161]
基于annovar结果的sift_pred指标定义某个突变基因g属于恶性突变基因m或良性突变基因b,定义如下:
[0162][0163]
经计算,平均每个患者的血细胞有1266处基因突变,其中,恶性基因突变65处。
[0164]
步骤s4、以患者血细胞恶性突变基因为特征,对其按年龄的分类,方法为:
[0165]
全部胃癌患者对应的恶性突变基因矩阵a∈rm×n,定义长度为n的突变基因集合x,患者人数m。利用支持向量(support vector machine,svm)分类,判别模型可以表示为:
[0166]
f(w)=sign(w
t
x+b)
[0167]
定义l(w)为模型的损失函数,表示为:
[0168][0169]
式中,lh(xi)表示hinge loss,表示为:
[0170]
lh(xi)=[1-y
·
(w
·
x+b)]
+
[0171]
以年龄45岁为分类依据将患者分为两类,按照3∶1划分训练集和测试集,分别使用线性核linear、高斯核rbf和多项式核poly进行分类,采用硬间隔分类,惩罚系数c设置为1.0,多项式核的最高次项系数degree设置为2,模型在测试集上准确率分别为79.9%、88.6%和88.6%(表1)。为验证模型是否被正确训练,测试了模型使用多项式核时,两个类别分别在测试集上准确率为88.9%和88.6%。上述说明可以看出恶性突变基因与患者年龄有关。
[0172]
步骤s5、对年龄与恶性突变基因进行相关性分析,方法为:
[0173]
把恶性突变基因表示为one-hot vector形式,度量指标分别选择pearson相关系数和spearman相关系数(表2)。使用person相关系数时,与年龄相关度最高的5个基因分别是dgkb、pcdh11x、sncaip、smarca2和melk,相关度均高于0.95;使用spearman相关系数时,与年龄相关度最高的5个基因分别是mertk、kif20b、dgkb、pcdh11x和sncaip,相关度均高于0.71。
[0174]
表1
[0175] 线性核多项式核高斯核训练集准确率/%10093.790.1测试集准确率/%79.988.688.6
[0176]
表2
[0177][0178]
综上,本实施例3提供的一种预测与年龄相关的胃癌血细胞恶性突变基因的方法
的实验结果令人满意,导致胃癌的血细胞的恶性基因突变与年龄有关,且到了与其相关性较高的基因。因此,可认为本发明中预测出的与年龄相关的突变基因与胃癌有关,可用于初筛胃癌时的基因检测,达到大量减少需要被检测的基因的目的。
[0179]
实施例4
[0180]
本发明实施例4提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现与年龄相关的胃癌血细胞恶性突变基因预测方法,该方法包括:
[0181]
将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0182]
基于所有患者的突变基因得到全部突变基因集合;
[0183]
分别获取每个患者对应的血细胞恶性突变基因和年龄;
[0184]
以患者血细胞恶性突变基因为特征,对其按年龄的分类;
[0185]
对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
[0186]
实施例5
[0187]
本发明实施例5提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现与年龄相关的胃癌血细胞恶性突变基因预测方法,该方法包括:
[0188]
将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0189]
基于所有患者的突变基因得到全部突变基因集合;
[0190]
分别获取每个患者对应的血细胞恶性突变基因和年龄;
[0191]
以患者血细胞恶性突变基因为特征,对其按年龄的分类;
[0192]
对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
[0193]
实施例6
[0194]
本发明实施例6提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现与年龄相关的胃癌血细胞恶性突变基因预测方法的指令,该方法包括:
[0195]
将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;
[0196]
基于所有患者的突变基因得到全部突变基因集合;
[0197]
分别获取每个患者对应的血细胞恶性突变基因和年龄;
[0198]
以患者血细胞恶性突变基因为特征,对其按年龄的分类;
[0199]
对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。
[0200]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0201]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0202]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0203]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0204]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种与年龄相关的胃癌血细胞恶性突变基因预测方法,其特征在于,包括:将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换成csv格式文件;基于所有患者的突变基因得到全部突变基因集合;分别获取每个患者对应的血细胞恶性突变基因和年龄;以患者血细胞恶性突变基因为特征,对其按年龄的分类;对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。2.根据权利要求1所述的与年龄相关的胃癌血细胞恶性突变基因预测方法,其特征在于,对于胃癌患者血细胞突变基因检测结果的maf格式文件,转换成csv格式文件;基于所有患者的突变基因得到全部突变基因集合;基于annovar结果的sift_pred指标定义某个突变基因g属于恶性突变基因m或良性突变基因b,定义如下:3.根据权利要求1所述的与年龄相关的胃癌血细胞恶性突变基因预测方法,其特征在于,以患者血细胞恶性突变基因为特征,对其按年龄的分类,包括:全部胃癌患者对应的恶性突变基因矩阵a∈r
m
×
n
,定义长度为n的突变基因集合x,患者人数m;利用支持向量(support vector machine,svm)分类,判别模型为:f(w)=sian(w
t
x+b)定义l(w)为模型的损失函数,表示为:式中,l
h
(x
i
)表示hinge loss,表示为:l
h
(x
i
)=[1-y
·
(w
·
x+b)]
+
;特征矩阵w表示恶性突变基因矩阵a,b表示偏置,sign(
·
)表示符号函数,定义为:w
t
x+b是负责分类的超平面,定义样本点(x
i
,y
i
)到超平面距离d如下:以支持向量到超平面的距离最远为目标函数:式中,通过控制x
i
选中支持向量;通过控制w和b使得该样本点到超平面的距离最远。4.根据权利要求3所述的与年龄相关的胃癌血细胞恶性突变基因预测方法,其特征在于,由约束条件,进行缩放,令(w
t
x
i
+b)y
i
=1,目标函数变为:
对约束条件进一变换:对于优化问题,目标函数通常为求函数的最小值,目标函数变为:使用拉格朗日乘数法求解最优化问题:求解时,对λ和b偏导,使其偏导为0,即:5.根据权利要求4所述的与年龄相关的胃癌血细胞恶性突变基因预测方法,其特征在于,基于python语言,利用sklearn工具包,使用svm算法对胃癌患者按年龄分类,包括:划分训练集和测试集,分别使用线性核linear、高斯核rbf和多项式核poly进行分类,采用硬间隔分类,惩罚系数c设置为1.0,多项式核的最高次项系数degree设置为2;为验证模型是否被正确训练,测试了模型使用多项式核时,两个类别分别在测试集上准确率。6.根据权利要求5所述的与年龄相关的胃癌血细胞恶性突变基因预测方法,其特征在于,对年龄与恶性突变基因进行相关性分析。包括:把恶性突变基因表示为one-hot vector形式,度量指标分别选择pearson相关系数和spearman相关系数;对于变量x、y,pearson相关系数计算公式如下:式中,cov(x,y)表示x和y的协方差,σ
x
和σ
y
分别表示x和y的标准差。spearman相关系数计算公式如下:式中,d
i
表示秩次的差值,n表示样本个数。7.一种与年龄相关的胃癌血细胞恶性突变基因预测系统,其特征在于,包括:转换模块,用于将所有患者的原始胃癌患者血细胞突变基因的maf格式文件,分别转换
成csv格式文件;获取模块,用于基于所有患者的突变基因得到全部突变基因集合;提取模块,用于分别获取每个患者对应的血细胞恶性突变基因和年龄;分类模块,用于以患者血细胞恶性突变基因为特征,对其按年龄的分类;分析模块,用于对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-6任一项所述的与年龄相关的胃癌血细胞恶性突变基因预测方法。9.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如权利要求1-6任一项所述的与年龄相关的胃癌血细胞恶性突变基因预测方法。10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-6任一项所述的与年龄相关的胃癌血细胞恶性突变基因预测方法的指令。
技术总结
本发明提供一种与年龄相关的胃癌血细胞恶性突变基因预测方法及系统,属于基于计算机的生物信息处理技术领域,将所有患者的原始胃癌患者血细胞突变基因的MAF格式文件,分别转换成csv格式文件;基于所有患者的突变基因得到全部突变基因集合;分别获取每个患者对应的血细胞恶性突变基因和年龄;以患者血细胞恶性突变基因为特征,对其按年龄的分类;对年龄与恶性突变基因进行相关性分析,预测恶性突变基因。本发明基于支持向量机和相关性分析对与年龄相关的胃癌血细胞恶性突变基因进行预测,可实现根据患者年龄检测血细胞的少量基因判断胃癌,节省人力、物力、财力,具有较高的应用价值。值。值。
