基于RNA-Seq数据的差异表达基因检测算法研究

来源 :大连海事大学 | 被引量 : 6次 | 上传用户:johnchen1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA-Seq(Ribonucleic Acid Sequencing)技术是现代生物信息学研究的常规实验手段,主要目的是筛选出测序数据中具有差异表达的基因,即检测出不同样本下表达量不相同的基因。差异表达分析是研究生物个体在不同发育阶段或不同生理环境下同一类基因的差异表达,不仅具有统计学意义而且具有生物学意义,为认识和理解生命活动过程本质以及研究基因表达调控提供重要理论基础。本文对检测RNA-Seq数据中差异表达基因的处理流程进行分析研究,主要内容包括:(1)基于加权截尾均值化M值(The Trimmed Mean of M-values,TMM)标准化和几何平均标准化,给出了基于变异系数中值绝对偏差调整的改进标准化算法。首先分别使用TMM法和几何平均法得到标准化的数据,计算每行基因在两组数据中的变异系数,比较两个变异系数得到最优变异系数,从而得到新数据,然后对新数据进行中值绝对偏差调整,实现数据的标准化。实验结果表明,本文算法不但能消除测序技术上的误差,将所有测序样本调整到同一水平,而且误差更小,精度更高。(2)基于svaseq(Surogate Variable Analysis Sequencing)算法给出了去除批次效应的改进svaseq算法。首先根据相关显著性参数,分别构建正则对数变换模型和对数变换模型,然后通过加权最小二乘法估计模型中的参数,得到数据的残差矩阵,对该矩阵进行因子分解,估计替代变量。实验结果表明,本文算法能更好的消除数据中的批次效应,而且差异表达结果也有一定的提高。(3)基于DESeq(Differential Expression Sequencing)算法给出了检测差异表达基因的改进DESeq算法。假设数据服从负二项式分布模型,首先根据改进的标准化因子估计样本的测序总数,计算模型的均值和方差并估计离散参数,然后利用精确检验进行差异表达分析。实验结果表明,本文算法能更好的检测差异表达基因,并且准度提高了 6.9%。
其他文献
经过十余年时间的发展,城市商业银行取得了很大的成绩,已成为我国银行体系的一个重要组成部分。但是我们也要看到,中国银行业外部经营环境发生了剧烈的变化,国内银行业竞争日
在建设与市场经济体制相适应的社会主义体育新体制的浪潮中,中国足坛于1994年率先进行职业化改革,原有的专业足球运动队转变为自主经营、自负盈亏的足球俱乐部,按照市场经济
针对亚熔盐溶出一水硬铝石型铝土矿过程中SiO2溶出率过高,影响后续结晶和液固分离的瓶颈问题,对亚熔盐法生产氧化铝过程中的铝硅分离问题进行了应用基础研究和工艺优化,主要创新
<正> 本文的颅骨材料采自内蒙呼伦贝尔盟陈巴尔虎旗的完工、扎赉诺尔两地古墓葬,及昭乌达盟巴林左旗南阳家营子古墓葬。据报告这三处墓葬时代大致都相当于东汉时期,但年代上
最近一篇关于商战思潮的新论认为 ,郑观应的商战思想重视的是生产领域而非流通领域内的竞争 ,《辞海》中“商战”词条的解说违背了近代“商战”思潮的原意 ;而汪康年的《商战
自2012年上海增值税改革试点之后,我国增值税改革试点继续扩大,不仅减少了重复征税,降低了企业所承担的税负,还降低了征税管理成本,并对我国社会福利体制的建设有着促进作用
目的将来源于健康产妇的脐带血进行体外分离、培养出间充质干细胞(mesenchymal stem cells,MSCS),诱导成肝样细胞并进行鉴别,探讨间充质干细胞体外培养和定向分化为肝样细胞
先秦以来的礼法一直保证男性的绝对权威。可是 ,在明清小说中 ,我们却可以看到大量的“女尊男卑”现象。通过对这些现象的深入分析 ,我们发现 :男女双方在经济、道德、情感、
相对于那种求最大杀伤效应的军用弹药而言,非致命弹药显得更为人道。但如果其击打在人体上时同样可以致伤甚至致死。非致命性弹药所面临的最主要问题是作用的有效范围和效应
随着社会经济的不断发展与进步,大学教育的不断改革创新,越来越多的民办高职院校开始高度关注和重视到大学英语的大班教学模式。面对着当前民办高职院校英语教学质量和效率普