论文部分内容阅读
RNA-Seq(Ribonucleic Acid Sequencing)技术是现代生物信息学研究的常规实验手段,主要目的是筛选出测序数据中具有差异表达的基因,即检测出不同样本下表达量不相同的基因。差异表达分析是研究生物个体在不同发育阶段或不同生理环境下同一类基因的差异表达,不仅具有统计学意义而且具有生物学意义,为认识和理解生命活动过程本质以及研究基因表达调控提供重要理论基础。本文对检测RNA-Seq数据中差异表达基因的处理流程进行分析研究,主要内容包括:(1)基于加权截尾均值化M值(The Trimmed Mean of M-values,TMM)标准化和几何平均标准化,给出了基于变异系数中值绝对偏差调整的改进标准化算法。首先分别使用TMM法和几何平均法得到标准化的数据,计算每行基因在两组数据中的变异系数,比较两个变异系数得到最优变异系数,从而得到新数据,然后对新数据进行中值绝对偏差调整,实现数据的标准化。实验结果表明,本文算法不但能消除测序技术上的误差,将所有测序样本调整到同一水平,而且误差更小,精度更高。(2)基于svaseq(Surogate Variable Analysis Sequencing)算法给出了去除批次效应的改进svaseq算法。首先根据相关显著性参数,分别构建正则对数变换模型和对数变换模型,然后通过加权最小二乘法估计模型中的参数,得到数据的残差矩阵,对该矩阵进行因子分解,估计替代变量。实验结果表明,本文算法能更好的消除数据中的批次效应,而且差异表达结果也有一定的提高。(3)基于DESeq(Differential Expression Sequencing)算法给出了检测差异表达基因的改进DESeq算法。假设数据服从负二项式分布模型,首先根据改进的标准化因子估计样本的测序总数,计算模型的均值和方差并估计离散参数,然后利用精确检验进行差异表达分析。实验结果表明,本文算法能更好的检测差异表达基因,并且准度提高了 6.9%。