差异表达基因

更新时间:2023-03-11 10:19:15 阅读: 评论:0

二年级-蒜苔怎么腌制才好吃

差异表达基因
2023年3月11日发(作者:幼儿园歌)

差异表达与聚类分析

在鉴定出ncRNA后,我们如何推断其可能的⽣物学功能呢?⾸先对于miRNA等作⽤机制⽐较清楚的ncRNA,我们可以参考

其作⽤机制,利⽤碱基互补等⽅式预测其靶标,并进⽽推断其⽣物学功能。然⽽,对于longnon-codingRNA等具体作⽤机制

尚待明确的⾮编码RNA,这个⽅法就不适⽤了。这时,我们可以根据在表达调控⽹络中,表达相关的基因往往具有功能相似

性这⼀特征,利⽤表达相关来推断其功能。具体来说,在实际研究中,我们主要关注两类表达关联,在不同条件下差异表达

的基因,以及不同条件下共表达的基因。

在不需要考虑实验误差的理想世界⾥,差异表达基因检测是很容易的。我们只需要直接⽐较不同条件下检测出的表达量数

值即可。然⽽,在现实世界中,情况要复杂的多。事实上,在真实的实验过程中,由于随机误差(andomerror)的存在,

我们得到的测量值永远是⼀个分布⽽⾮⼀个定值。因此,不同条件下基因表达⽔平的⽐较实质上是对两个分布的⽐较,换句

话说,除了均值之外,我们还需要考虑⽅差的影响。我们需要利⽤统计学的⽅法,基于概率模型进⾏统计推断。具体来说,

我们需要构建⼀个考虑⽅差的统计量(tatistic),⽽后基于这个统计量的零分布(NULLdistribution)来计算每个基因的

p-value,最后选择⼩于给定cut-offp-value的基因作为有统计显著性差异表达的基因。

针对RNA-Seq数据的特定,不同研究组基于Possion,负⼆项分布等构造了不同的统计量和差异表达计算的⽅法。由于这

些⽅法基于不同的假设,其零分布之间也存在显著的差异,从⽽导致了最终的p-value乃⾄calling结果的差异。为了便于选

择合适的⽅法。OoronBetel等⼈基于多组数据集对常⽤的差异表达⼯具进⾏了系统评估。p-value本质上对统计错误可能性

的⼀个概率表⽰。具体来说,我们在实际中可能会碰到两类错误,⼀类错误⼜称假阳性错误,指实际并没有差异表达的基因

错当成了有差异表达的基因,⼆类错误⼜称假阴性错误,值实际表达有差异的基因错当成了没有差异表达。

⼀般来说,我们会⽤p-value表⽰⼀次检验中发⽣⼀类错误--也就是假阳性的错误--的概率。在实践中,我们通常对多个

基因重复进⾏统计检验。这时就碰到多重检验问题(multipletestinglssue).例如,我们对20个不同的基因⼀次进⾏统计检

验,每次检验的p-value都为0.05,那么也就是说,我们每次犯错误的概率是0.05,我们不犯错误的概率是0.95,根据乘法

原理,连续20次不犯错误的概率就是0.95的20次⽅,约0.358。我们⾄少犯⼀次错误的概率是1-0.358=0.642.也就是说,

即使每次出错的概率都是0.05,但20次最终任由超过⼀半的概率⾄少犯⼀次错误。这就是所谓的multipletestingissue.为

了解决这个问题,最简单的办法就是将p-value的cut-off改的更严。例如,Bonferronicorrection中,会将检验得到的原始

p-value乘以检验进⾏的次数。因此,假如,我们对⼈类基因组3万个基因只在原始p-value⼩于0.05/30000=1.67*10^-6

时才将之作为差异表达基因。就可以确保及时在最糟糕的情况下,也可以确保假阳性错误发⽣的概率⼩于0.05.然⽽,在实践

中Bonferronicorrection往往过于严格了。为了确保降低假阳性⽽抬⾼了假阴性错误发⽣的概率,从⽽降低了统计检验的效

⼒(power).同时,相对于全体进⾏统计检验的基因,我们在实际研究中往往更关⼼在已经被标记为差异表达的记忆中,有

多少假阳性的基因。换句话说,我们关⼼的是FDR⽽不是FWER.这时,可以将p-value转变为q-value.类似于p-value,q-

value也是对统计错误可能性的表⽰(measure).然⽽,于p-value不同的是,q-value衡量的是FalDISCOVERYRate,对

于给定的基因G,q-value给出的是在和基因g⼀样或更显著的差异基因群体中,假阳性发⽣的⽐率。

对于差异表达类似,在不同条件下共表达的关系也可以⽤来推断基因的功能。对不同条件下多个基因的表达进⾏聚类分

析(clustering)可以帮助快速的选择共表达基因。正确的聚类分析,不但有助于推断基因的功能,还可以有效的发现基因

之间存在的调控关系。距离度量是聚类⽅法的核⼼。这⾥的距离度量,是指⽤来衡量两个基因的表达模式之间的相似程度。

常⽤的距离衡量有欧式距离,⼜称绝对距离;和Peason距离,⼜称关联距离。其中欧式距离关⼼的是表达量,也就是两个

基因在表达⽔平之间的相似程度。⽽相关性距离则是关⼼的是表达模式,也就是两个基因在表达变化上的⼀致性。不同的距

离度量,可以得到迥然不同的结果。

由于共表达通常是指表达的变化趋势,因此在实际分析中关联距离使⽤的频率更⾼⼀些。在应⽤Pearson距离时,也要注

意utlier对它的影响。由于Pearson距离以来于群体⽔平的协⽅差,如果有⼀些特殊的outlier,会对最终的结果产⽣极⼤的影

响。

本文发布于:2023-03-11 10:19:15,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/167850115524094.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:差异表达基因.doc

本文 PDF 下载地址:差异表达基因.pdf

上一篇:做家务英文
下一篇:返回列表
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|