基于特征融合的植物启动子识别算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:jack332904910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因序列识别作为生物信息学中一个重要的研究领域,主要应用计算机仿真技术模拟实验进行判别。启动子作为基因序列的重要调控元件,主要调节转录和翻译。因此,启动子识别是基因序列识别中的一个重要研究内容,具有十分重要的理论研究意义。长期以来,启动子识别主要集中于真核启动子的识别,尤其集中在哺乳动物启动子(尤其是人类启动子)的识别研究上,而对于真核启动子的另一个重要组成部分—植物启动子的识别研究相对较少。而近年来,随着植物启动子数据的日益丰富,植物启动子识别成为了一个研究热点。但是在其识别过程中,一般存在假阳性高等问题,所以降低假阳性成为目前识别的难点之一。在查阅了大量相关文献的基础上,本文对植物启动子识别算法进行了充分研究,提出了两种改进的植物启动子的识别算法。基于粗糙集和DNA双链特征的植物启动子识别算法。该算法集合了粗糙集提取主要特征的优势和SVM的良好分类性能。其主要步骤是首先提取启动子和非启动子的内容特征和结构特征,利用粗糙集进行特征筛选,从而得到区分启动子和非启动子的主要结构特征和主要内容特征,并将其与DNA双链特征相融合作为输入向量输入SVM,达到利用SVM分类的目的。此算法的SVM分类器由五个成分分类器构成,分别是3’UTR—启动子成分分类器,5’UTR—启动子成分分类器,Intergenic—启动子成分分类器,CDS—启动子成分分类器和Exon—启动子成分分类器。最后综合五个成分分类器的结果进行判断。基于TATA-box和GC偏好特征的植物启动子识别算法。该算法是利用GC偏好特征和TATA-box启动子和TATA-less启动子的结构特征差异的特点,先将启动子分为TATA-box启动子和TATA-less启动子,再将两类启动子分别与非启动子分为GC偏好序列和非GC偏好序列,然后提取用于分类的结构特征,最后应用SVM分类器进行启动子识别。实验结果表明,上述两种算法都取得了较好的植物启动子识别效果。
其他文献
本文引进和研究了如下动态规划中提出的多阶段决策过程的一类泛函方程其中λ,μ∈[0,1]是常数且满足λ+μ≤1和m∈N,opt代表上确界或下确界,x,y分别代表状态量和决策量,ui,vi,wi,pi,qi,ri:S×D→R是映射,ai,bi,ci:S×D→S代表过程的变换,其中i∈{1,2,…,m},f(x)代表初始状态为x的最优返回函数。本文应用Banach不动点定理和Mann迭代方法对上述泛函方
具有机会约束的随机优化是随机优化领域的一个具有重要理论意义和应用价值的研究课题,许多有重要价值的实际问题均属于概率约束问题,该类问题通常是非凸的且非光滑的,有效的求解方法多集中于凸近似方法。本文旨在研究基于Sigmoid函数的概率约束优化问题的光滑近似,建立相应的光滑近似问题,提出了求解光滑近似问题的样本样本均值近似方法。主要研究内容概括如下:第一章综述了本文的研究背景,列举了与本文研究相关的概率
本文基于非线性连续介质力学的有限变形理论,研究了由不可压缩的neo-Hookean材料组成的双矩形橡胶圈在端部轴向压缩载荷作用下的有限变形问题.首先,针对上述的问题,在假设沿着轴向橡胶圈的横截面在变形后仍然是平面且垂直于轴线,并且结构在变形过程中是拟静态的情形下,建立了相应的数学模型,然后利用逆解法和材料的不可压缩条件求得了问题的隐式解析解,最后通过数值模拟得到了一些有意义的结论.主要的工作如下:
目的 :研究防跌倒护理措施在老年患者中的应用,对护理效果进行对照分析,明确防跌倒护理的应用价值。方法 :使用对照分析法分析文中统计资料,资料来源于甘肃省某职业中等专业学校某次校外实践教学中的老年患者,总计82例,分为对照组与观察组。对照组有40例老年患者,观察组有42例老年患者。对照组使用了常规护理方法,观察组则重点强化防跌倒护理,比较不同护理方式下患者跌倒不良事件发生率,并对患者满意度评分进行比
动态规划这一概念是在上个世纪中期Richard Bellman首次提出的,它是解决多阶段决策过程最优化的一种方法,最优化原理是它的核心思想。在过去的半个多世纪,动态规划在运筹学、控制论、工业工程、经济学、管理学等众多领域中扮演着至关重要的角色。值得说明的是,动态规划的一个最为突出的特性就是泛函方程的“嵌入”。将动态规划和泛函方程结合在一起,给我们今后的研究工作带来了很多新的思路。在十九世纪以前,众
在一般拓扑学中,局部紧性是很重要的概念。在纤维空间理论中,迄今为止,在现有的文献中,没见到有人讨论关于纤维局部紧性之间的关系,特别是与纤维超空间结合起来,这个性质更没有文献涉及。本文从纤维空间出发,定义了纤维局部紧性和局部紧纤维两个重要的概念,并将这两个概念推广到超空间中,讨论了超空间中的纤维局部紧性与局部紧纤维和原空间紧性、分离性之间的关系。本文主要从以下几个方面探讨:一方面,给出了纤维超空间定
本文主要研究一类特殊的完全点阵,这类点阵每条线上都有三个点的。对于点阵的实现从这门学科创建开始就是最重要的问题。本文前两章重点介绍了两种构造点阵的方法。第一种是通过笛卡尔乘积用已知的的点阵去构造更为复杂的点阵。对于一些无法用笛卡尔乘积构造的点阵,本文给出另一种相对简单的方式去构造。第三章到第四章重点是用拓扑学和代数的方法讨论点阵的对称性和唯一性,通过讨论点阵的置换群的结构说明该点阵的对称性,证明了
内容摘要:纤维拓扑乘积空间在纤维拓扑理论中占有非常重要的地位。乘积空间具有的性质,与生成它的空间有直接关系。纤维拓扑空间的很多性质都具有可乘性。本文在此基础上对纤维拓扑乘积空间进行推广。主要讨论了不同底的纤维拓扑空间乘积拓扑的形式,以及生成的纤维拓扑乘积空间有哪些可乘性。同时本文还讨论了,在不同映射条件下,乘积空间某些性质的保持情况。本文主要内容:1、广义纤维拓扑空间乘积空间的定义以及一些映射的保
一直以来,人们都认为C,P,T分别是自然界中的基本作用中守恒的,但是到了二十世纪50年代,李政道和杨振宁对当时的θ-τ百之谜进行深入的研究之后,提出宇称P在弱作用中是不守恒的,从而推翻了这一思想。吴健雄领导的实验小组以及Garwin和Friedman等小组也证明了这一观点的正确性。1964年,Groin和Fitch所领导的实验小组发现了CP破坏现象,这使人们对弱相互作用有了一个新的认识。CP破坏现
经验似然作为一种构造未知参数的置信区间的非参数统计推断方法是由Owen(1988,1990)提出的,具有很多优点,一经提出便得到广泛关注.比如,用经验似然方法来构造置信区间时,不需要估计渐近方差,所得的置信区间的形状可以自动由数据决定.许多统计学家已将这一方法应用到各种统计模型中,如线性模型、非参数模型、半参数模型等.在实际应用中,经常由于某些原因造成数据不能被精确观测而是带有测量误差,一些统计学