论文部分内容阅读
随着RNA-Seq(RNA sequencing)技术的飞速发展和日益普及,逐渐成为探索疾病和分子之间关系的主流技术手段。复杂疾病的发生和发展可能是一个复杂的分子调控网络,并非由单一的分子调控。故越来越多的研究在关注差异表达分子的同时,也在积极探索不同分子间的交互作用。上述的两个问题是生物统计和系统生物学中亟待解决的问题,也需要两门学科的有机结合。第一部分,借助了集合检验的思想,构建基于isoform的表达数据筛选差异表达基因的模型。模型假设同一个基因不同isoform的表达为因变量,服从泊松或负二项分布。模型中的第一个随机项表示不同isoform之间的相似性;第二个随机项表示标签变量。故对于一组isoform时候差异表达的检验可以转化为在广义混合效应模型框架下对于第二个随机项方差成分的假设检验。在H0成立条件下,构建对于第二个随机项的得分检验统计量,其近似服从混合卡方分布。另外,考虑了permutation算法构建统计量的经验分布。模拟实验中比较了本模型中经验分布和理论分布,以及本方法和传统差异表达筛选算法统计性质的优劣。实例分析使用了肿瘤基因图谱(The cancer genome altas, TCGA)中肺鳞癌的数据。结果表明,本方法基本可以控制一类错误,但是经验分布的一类错误控制过于严格;传统的算法出现不同程度的膨胀。在标签效应同向时和标签效应同时具有正向和负向时,本方法的效能均优于传统算法。负二项分布假设和泊松分布假设总体的结果相似,泊松分布假设的分析结果优于负二项分布假设。在负二项分布假设中,方法整体的效能损失严重,而本方法的效能仍然优于传统算法。实例分析中,本算法单独定义了17个差异表达基因,其中Batch 101中有3个,Batch 193中有14个。第二部分,基于混合效应模型和半参数模型的相似性,在二分类表型的框架下,构建了mRNA-miRNA一阶交互作用的伪参数核函数模型。故对其交互作用的检验可以转化为对混合模型中随机效应项方差成分的检验。在H0成立的条件下,构建对于伪参数检验的得分检验统计量,其服从混合卡方分布。模拟实验中比较了该方法和传统F-test的优劣。实例分析中,借助了现有的靶标预测数据库以及TCGA中乳腺浸润癌miRNA和mRNA的RNA-Seq数据,定义了既有统计学意义,又有生物学联系的mRNA-miRNA交互作用对子。结果显示,本方法可以控制一类错误,在多数情况下对于一类错误的控制过于严格,而传统F-test在多数参数组合下一类错误严重膨胀,几乎无法用在高维交互作用的筛选。在效能模拟中,发现不包括交互项的模型和全模型之间效应差别越大,效能越高。对于非参数部分的线性假设和非线性假设对于效能影响较小,表明模型可以适用于复杂的分子与疾病之间的关系。实例分析中,本算法定义了31710对mRNA-miRNA两两相互作用。