基于判别分析的植物poly(A)位点识别研究

来源 :厦门大学 | 被引量 : 2次 | 上传用户:aa87850011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
植物mRNA序列中多聚腺苷化位点(简称poly(A)位点)识别是基因识别的重要组成部分,在基因组分析中,对poly(A)位点的正确识别有助于确定基因编码的终止位置,对分析基因的转录过程及探索基因表达的调控机制都起着十分重要的作用。大量的研究人员已经对不同生物的poly(A)位点识别问题进行了研究,但由于植物的poly(A)位点表现出分散性、多样性以及复杂性的特点,所以在植物mRNA序列中关于poly(A)位点选择的理解仍十分有限。 判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。逐步判别分析是对进入判别模型的特征根据对判别贡献的大小进行逐步选择,最后根据筛选出的特征建立判别模型。 本文根据拟南芥poly(A)位点上下游周围序列顺式作用元件的特征,运用逐步判别分析的方法来建立poly(A)位点的识别模型。对建立模型采用的训练集数据,使用k-gram核苷酸模式、Z曲线、位置特异性分数矩阵、一阶异构马尔可夫模型、阶乘矩等方式表示提取的生物特征;首先使用基于信息增益、熵等多种属性选择算法对特征空间进行初步的筛选,获得若干重要特征。而后对得到的序列特征的数值编码作为逐步判别分类的输入,针对训练数据建立判别模型。本文使用建立的判别模型对测试数据进行预测,并对各测试组的预测结果进行分析,发现逐步判别分类在识别精度上基本取得了令人满意的结果。逐步判别在位点识别模型的建立过程中可以进一步筛选出对位点预测有显著作用的特征,选择出的变量更能够反应类间差异,大大减少了新序列测定位点所需抽取的特征量。模型的训练和测试结果表明,拟南芥poly(A)位点的逐步判别模型是一种有效且高性能的位点预测模型。
其他文献
A hybrid polarization division multiplexed-differential phase shift keying-multipulse pulse position modulation(PDM-DPSK-MPPM) scheme for multi-hop free-space o
针对现有连续模式中链路时延函数形式难以假定的问题,提出一种直接的基于正则化的时延层析成像估算方法,该方法没有预先对链路的时延函数形式进行假设,而是结合了正则化的理
本文主要研究了人工神经网络在语音识别中的应用,径向基函数神经网络(RBFNN)的原理及在语音识别中的应用,重点在于研究基于径向基神经网络的命令集语音识别系统,研究构造了相应
复杂非线性系统的表达和控制问题是控制理论领域的重要研究方向之一,遗传算法作为一种新的搜索算法得到了控制理论界的重视。本文介绍了基于遗传算法的模糊模型的非线性系统的
本文以大容量机组(600MW或以上)为研究对象,首先分析了机组的煤耗特性。在特性曲线的拟合上,提出了一种统计方法,综合考虑历史数据和当前数据对煤耗特性的影响,使曲线更真实的反映机组的实际状况。在此基础上,建立了简单、完整、符合电厂实际的数学模型。然后分别用动态规划法和遗传算法解决负荷优化问题。动态规划法对模型要求较低,结果准确,但是当机组台数较多时产生“维数灾”问题。针对这一不足,本文提出两种改进
随着电机及电力电子器件性能的不断提高,使得将电机作为加载执行器成为可能。与经典负载模拟方式相比,电动负载模拟不需要增加额外的硬件结构,只要改变控制算法的参数即可实现各
信息融合是一个在多级别、多层次上对多种源信息进行综合处理的过程,是一门有着很强的一般性和多样性的新兴学科,不论在军事还是在民用领域,都得到了广泛的应用。本文的主要
简历林蓝,1971年生,广东潮州人,1993年毕业于广州美术学院国画系,1996年毕业于中央工艺美术学院并获硕士学位,2004年毕业于清华大学美术学院并获美术学博士学位,现为广州美术
随着现代工业的快速发展,工业过程正朝着一体化和智能化的方向发展,同时对生产过程中的安全性逐渐提高。人们不仅希望能够在故障出现时做出有效的隔离和防护措施,还要求在过