论文部分内容阅读
真核生物中,多聚腺苷酸化及选择性多聚腺苷酸化是基因表达及其调控的重要机制。多聚腺苷酸化是转录后mRNA成熟的必要步骤,包括在3’-UTR某一特定位置[即poly(A)位点]的剪切和位点处加入一串多聚A尾巴[即3’端poly(A)加尾]这两个过程,对poly(A)位点的准确识别有助于基因结构的确定。另外,3’端poly(A)加尾也是基因表达调控的一个枢纽,当3’-UTR存在多个潜在的poly(A)位点时,选择性多聚腺苷酸化以组织或疾病特异性的方式影响着基因的表达。某poly(A)位点的位置被认为是由其上下游序列中的若干poly(A)因子决定,而对于多poly(A)位点情况,某个特定poly(A)因子的突变会造成对不同poly(A)位点的选择剪切,引起基因的差异表达,因此从全基因组角度分析不同条件下的基因表达差异对研究植物的发育和功能有重要影响。
关于poly(A)位点识别问题,当前主要是针对动物研究,对植物因其序列的分散性、多样性及复杂性的特点而研究得较少,特别是应用数学模型与计算分析进行植物poly(A)位点识别十分困难,在本研究之前还未发现相关正式文献报道。关于基因表达差异分析问题,项目组通过生物实验已鉴定了一个拟南芥poly(A)因子PCFS4,它能够对叶子发育和开花时间产生调控作用,并确认了该因子的突变会造成基因FCA选择近端poly(A)位点进行剪切,导致开花时间延迟,但受其调控进而影响叶子发育或开花时间的其它目标基因还一直无法得到确认。
本文就植物poly(A)位点的识别问题及基于Tiling Array的基因表达差异问题进行了深入的建模分析与实验证实,主要研究工作内容如下:
1.针对模式植物拟南芥poly(A)位点识别,提出了基于GHMM的poly(A)位点识别模型与算法,首次将建模分析与生物实验结合以有效辩识拟南芥poly(A)位点。首先,结合拟南芥poly(A)位点及其周围序列顺式作用信号元件的特征信息,设计了相应的GHMM拓扑结构,对前向和后向算法进行了扩展与改进;其次,给出了评估序列位置是poly(A)位点的概率分值输出公式;最后,使用多种统计方法对模型中各状态相关参数进行估计,还引入一阶异构马尔可夫子模型来强化特定信号元件的特征。实验证实该模型与算法可有效识别拟南芥的poly(A)位点,包括选择性poly(A)位点,获得了较高的敏感度和特异度。
2.针对不同种类植物的poly(A)位点识别,提出了基于植物poly(A)信号分布的分类器识别模型框架,实现了信号分布结构、特征产生和分类算法应用的独立模块化设计。在特征产生方面,引入了K-gram核苷酸模式、Z曲线、二进制编码等多种方式对poly(A)位点周围序列进行全面特征搜索,并且构建了位置特异性分数矩阵、一阶异构马尔可夫子模型等来强化特定信号元件的特征。在分类算法应用方面,基于“仿生模式识别”思想,实现了高维空间复杂几何体覆盖方法以判别真假poly(A)位点。结果表明,相比基于GHMM的poly(A)位点识别模型与算法,所提模型框架更为灵活、更易于扩展,用户可自由选择不同的特征组合或分类算法进行模型训练及测试,有利于计算机识别系统平台的搭建,方便生物学家在多种植物上的扩展应用,同时获得了较高的识别效率,验证了方法的有效性与优越性。
3.针对高通量、高密度的Tiling Array芯片数据,提出了一种将T检验、方差分析、F检验及多重比较等统计方法有层次组合的基因表达差异分析方法。在全基因组水平上,分析和比较拟南芥野生型样本和PCFS4作用下的病态突变型样本之间的基因表达差异显著性,辩识出突变型样本中的特异性目标基因,并分析其在不同条件下的结构差异,进行mRNA选择性加工研究,同时引入了芯片随机平衡组合方式以评估所得差异基因的假阳率。通过实验表明,该方法在找出差异表达基因的同时,也能识别由于选择性加工造成的差异结构基因,且两者均取得较低的假阳率。
4.为了减少或消除多种噪声对Tiling Array芯片数据的干扰,给出了实现标准化、探针亲合度消除、探针过滤等方式综合的数据预处理方案。首先应用VSN标准化算法有效消除了芯片内部探针的背景信号和多个芯片间的系统偏差,效果优于RMA算法;其次,提出了比DNA参考标准化算法更简单有效的比值方式,减少了探针与基因特有的亲合度干扰;接着,利用Mummer软件过滤掉了在拟南芥基因组序列中非唯一完美匹配的探针,消除不合理探针的干扰;最后,通过对数转换使得后续分析数据近似服从正态分布。