植物poly(A)位点建模识别与基因表达差异分析

来源 :厦门大学 | 被引量 : 0次 | 上传用户:jinshi46
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核生物中,多聚腺苷酸化及选择性多聚腺苷酸化是基因表达及其调控的重要机制。多聚腺苷酸化是转录后mRNA成熟的必要步骤,包括在3’-UTR某一特定位置[即poly(A)位点]的剪切和位点处加入一串多聚A尾巴[即3’端poly(A)加尾]这两个过程,对poly(A)位点的准确识别有助于基因结构的确定。另外,3’端poly(A)加尾也是基因表达调控的一个枢纽,当3’-UTR存在多个潜在的poly(A)位点时,选择性多聚腺苷酸化以组织或疾病特异性的方式影响着基因的表达。某poly(A)位点的位置被认为是由其上下游序列中的若干poly(A)因子决定,而对于多poly(A)位点情况,某个特定poly(A)因子的突变会造成对不同poly(A)位点的选择剪切,引起基因的差异表达,因此从全基因组角度分析不同条件下的基因表达差异对研究植物的发育和功能有重要影响。   关于poly(A)位点识别问题,当前主要是针对动物研究,对植物因其序列的分散性、多样性及复杂性的特点而研究得较少,特别是应用数学模型与计算分析进行植物poly(A)位点识别十分困难,在本研究之前还未发现相关正式文献报道。关于基因表达差异分析问题,项目组通过生物实验已鉴定了一个拟南芥poly(A)因子PCFS4,它能够对叶子发育和开花时间产生调控作用,并确认了该因子的突变会造成基因FCA选择近端poly(A)位点进行剪切,导致开花时间延迟,但受其调控进而影响叶子发育或开花时间的其它目标基因还一直无法得到确认。   本文就植物poly(A)位点的识别问题及基于Tiling Array的基因表达差异问题进行了深入的建模分析与实验证实,主要研究工作内容如下:   1.针对模式植物拟南芥poly(A)位点识别,提出了基于GHMM的poly(A)位点识别模型与算法,首次将建模分析与生物实验结合以有效辩识拟南芥poly(A)位点。首先,结合拟南芥poly(A)位点及其周围序列顺式作用信号元件的特征信息,设计了相应的GHMM拓扑结构,对前向和后向算法进行了扩展与改进;其次,给出了评估序列位置是poly(A)位点的概率分值输出公式;最后,使用多种统计方法对模型中各状态相关参数进行估计,还引入一阶异构马尔可夫子模型来强化特定信号元件的特征。实验证实该模型与算法可有效识别拟南芥的poly(A)位点,包括选择性poly(A)位点,获得了较高的敏感度和特异度。   2.针对不同种类植物的poly(A)位点识别,提出了基于植物poly(A)信号分布的分类器识别模型框架,实现了信号分布结构、特征产生和分类算法应用的独立模块化设计。在特征产生方面,引入了K-gram核苷酸模式、Z曲线、二进制编码等多种方式对poly(A)位点周围序列进行全面特征搜索,并且构建了位置特异性分数矩阵、一阶异构马尔可夫子模型等来强化特定信号元件的特征。在分类算法应用方面,基于“仿生模式识别”思想,实现了高维空间复杂几何体覆盖方法以判别真假poly(A)位点。结果表明,相比基于GHMM的poly(A)位点识别模型与算法,所提模型框架更为灵活、更易于扩展,用户可自由选择不同的特征组合或分类算法进行模型训练及测试,有利于计算机识别系统平台的搭建,方便生物学家在多种植物上的扩展应用,同时获得了较高的识别效率,验证了方法的有效性与优越性。   3.针对高通量、高密度的Tiling Array芯片数据,提出了一种将T检验、方差分析、F检验及多重比较等统计方法有层次组合的基因表达差异分析方法。在全基因组水平上,分析和比较拟南芥野生型样本和PCFS4作用下的病态突变型样本之间的基因表达差异显著性,辩识出突变型样本中的特异性目标基因,并分析其在不同条件下的结构差异,进行mRNA选择性加工研究,同时引入了芯片随机平衡组合方式以评估所得差异基因的假阳率。通过实验表明,该方法在找出差异表达基因的同时,也能识别由于选择性加工造成的差异结构基因,且两者均取得较低的假阳率。   4.为了减少或消除多种噪声对Tiling Array芯片数据的干扰,给出了实现标准化、探针亲合度消除、探针过滤等方式综合的数据预处理方案。首先应用VSN标准化算法有效消除了芯片内部探针的背景信号和多个芯片间的系统偏差,效果优于RMA算法;其次,提出了比DNA参考标准化算法更简单有效的比值方式,减少了探针与基因特有的亲合度干扰;接着,利用Mummer软件过滤掉了在拟南芥基因组序列中非唯一完美匹配的探针,消除不合理探针的干扰;最后,通过对数转换使得后续分析数据近似服从正态分布。
其他文献
This article provides a graphical parameter tuning method of PIλ controllers for fractional-order time-delay systems. First, the complete stabilizing region of
新型肠道病毒D68(enterovirus D68,EV-D68)是小核糖核酸病毒科肠病毒属的D种,1962年在美国首次被检出,2014年EV-D68在美国引起暴发流行,此后多个国家相继报道EV-D68所致病例数增加。EV-D68与典型的肠道病毒不同,可通过呼吸道传播,容易引起人急性呼吸道感染。目前关于EV-D68的血清流行病学研究报道较少,本文就EV-D68的流行概况、中和抗体调查研究现况及血清
在雾霾天气条件下,户外计算机视觉系统采集的图像会出现对比度下降,色彩失真等退化现象。近年来雾霾天气频繁出现,这对户外计算机视觉系统的正常使用造成了很大影响,因此有必
目的:探讨血浆纤维蛋白原(FIB)和D-二聚体(D-D)与肺栓塞复发之间的关系.方法:选择我院收治的肺栓塞初次治疗缓解后患者115例作为初治缓解组,其中37例出现肺栓塞复发作为复发
随着科学技术的不断进步,现代工业和工程项目中的被控对象越来越复杂,这些系统大多数具有多变量、强耦合、时变和非线性等特点,很难建立精确数学模型。中央空调系统就是一个典型
2008年7月11日,BIRTV2008筹备工作通报会在北京梅地亚中心召开。总局科技司王效杰司长首先介绍了总局奥运转播报道的整体安排:除传统的广播电视转播以外,利用地面数字电视传
脱机手写体汉字识别是当前模式识别领域的一个研究热点,具有广泛的应用前景。由于汉字字符集字量大、相似字多,加上手写体的变形,使得脱机手写体汉字识别成为目前文字识别领
随着乳化炸药在工业生产和工程建设中应用的日益广泛,其连续化自动化生产技术本质安全性就成为亟待解决的问题。乳化器作为乳化炸药生产工艺的关键设备,罐内外过高温度直接作
多自由度肌电假手研究是康复医学工程领域的热点课题之一,对提高肢体残疾人生活质量和促进残疾人康复事业的发展都有十分重要的意义。肌电信号(EMG)发源于神经肌肉系统运动单
2018年3月7日,由广州市教育局主办,广州市白云区教育局、广州市教育研究院承办的广州市“中小学生阅读素养提升行动”现场会在自云区广园小学隆重举行.市教育局、市教育研究
期刊