基于频谱分析的基因识别算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:berry909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学与计算机技术、数学、物理等学科交叉发展,基因研究工作也逐步进入后基因时代。面对日益膨胀的海量基因数据,及时有效“读懂”数据,挖掘具有生物意义的知识成为基因识别重要目标,而达到此目标,最直接的途径是拥有快速、高效、精确的基因识别算法。由于基因编码区3-周期性的发现,谱分析引起了基因识别领域研究者们的极大关注,并涌现出了一批基于谱分析的基因识别算法,其中Voss与Z_curve是目前两种最常用的基因识别方法。鉴于Voss与Z_curve算法各自存在的缺点与不足,本文首先通过探究Voss与Z_curve算法中计算DNA序列功率谱、信噪比的原理,得到了其功率谱、信噪比的相应关系。在此基础上,提出了二次型频数快速算法(QF3),该算法不但保证了输出值能直接展示真实值,而且避免了DFT的计算过程。最后通过EMBL基因库的标准基因序列数据检验了QF3算法的优越性,同时得到QF3算法具有很低的灵敏度,其运行时间受DNA序列长度影响较小。在获得信噪比基础上,综合应用统计学的靴带抽样算法与SVM二分类算法,以确定信噪比阈值。通过实验对比分析两种算法在信噪比阈值确定问题中的优越性,得到了SVM算法分类的正确率更高,特别是在小样本情况下,基于SVM算法在信噪比阈值确定中效果更佳。对于基因识别工作至关重要的编码区定位问题,为解决常用的“固定长度窗口滑动频谱曲线法”与“移动序列信噪比曲线识别法”定位精度不够高问题,在结合两算法得到编码区大致范围基础上,借助生物工具sequence viewer对区间端点进行调整,提出了定长窗口序列移动曲线法(FWSMC)。FWSMC曲线法不仅可以提高定位精度,而且实验过程非常严谨,输出结果具有极强的直观效果。在论文的最后一章,对本文中所提出的新算法综合应用,对给定的五个未被注释的DNA序列进行综合仿真实验,成功识别并精确定位了每个序列的基因编码区,同时实现了对各序列所属物种的判定。
其他文献
随着建筑行业的发展日趋完善,建筑室内空间环境的热舒适性,引起人们广泛的关注,然而保证室内环境的热舒适性,通常是暖通设计师通过主动方式,设置机械设备来满足需求,在这样的前提下建筑空间的供暖空调能耗日益增加。但是即使建筑运行耗能日益增大,室内热舒适情况的改善,却不尽如人意,出现这种原因是设计者对热舒适缺乏了解,尤其是在寒地特殊的气候环境下,室外温度与室内的理想热环境存在较大差距导致问题更为严峻,相关研
随着生活水平的提高,人们对日常消费食品的品质、口味和多样性需求日益增长。食品行业正在经历一次重大的变革,人们对其要求也逐渐转向个性化定制。而3D打印技术正是实现食品个性化定制的关键所在。相较于其他食品加工技术,食品3D打印技术加工精美、过程更加具有趣味性和智能化。同时,可以根据每个人的身体情况和喜好定制食品,受到人们的喜爱。3D打印技术属于增材制造,在原材料方面考虑更加节约环保。本文将食品3D打印
水系重建对于理解全球变化和区域响应至关重要。松花江水系演化研究极为薄弱,尤其对第四纪早期松花江水系是否发生倒转一直存在争议,且无明确证据。河流沉积物是水系演化最直观的证据。为此,选择哈尔滨荒山(HS)钻孔岩芯沉积物作为研究对象,对其进行了磁化率、古地磁和Sr-Nd同位素组成和重矿物组成分析,结果表明:(1)荒山岩芯沉积相反映了其由湖泊相(95.18~101.11 m)至河流相(30.4~95.18
学位
随着时代变迁,公众文化需求不断提升,博物馆的社会功能所强调的侧重点也不断变化,从最初的收藏、研究功能,到展示、教育功能凸显,博物馆的社会功能日益丰富。在文化需求空前
学位
为了研究纤维掺量及种类对砂浆性能的影响规律,系统以水泥砂浆为研究对象,通过外掺三种纤维(玻璃纤维、玄武岩纤维、聚酯纤维),掺量为水泥体积的0.1%、0.2%、0.3%,研究纤维掺量及种类对其流动度、物理性质、力学强度、收缩及抗氯离子渗透能力等性能的影响。结果表明:(1)随着纤维掺量的增加,各纤维砂浆流动度先增大后减小。与其他两种纤维相比,玻璃纤维阻碍砂浆流动的能力最强。(2)掺玻璃纤维试块的孔隙率
聚合近邻(Aggregate Nearest Neighbor,ANN)查询是在空间内找到离多个查询点聚合函数(求和或求最大值)值最小的兴趣点(Point Of Interest,POI),是常见的时空查询之一。路网中同一条路段的行驶时间在不同的出发时刻往往不同,时间依赖路网下的时空查询受到越来越多的关注。已有对ANN查询的研究大多针对欧式空间或边的权值是静态的路网,现有技术大多采用计算查询点质心
背景与目的:近年来,尽管双侧原发性乳腺癌发病率逐年升高,但有关双侧乳腺癌预后情况的报道较少,我们目前尚不能精准的评估双侧乳腺癌的临床预后。本研究旨在探究影响双侧乳腺癌的预后因子,并且寻找一个简便有效的模型来预测双侧乳腺癌的预后和生存风险,为临床治疗的选择提供较为简便、可靠的依据。方法:提取 2004 年到 2014 年 SEER 数据库(Surveillance,Epidemiology,and
教学设计是教学环节开展的准备阶段,其中包含了教师对于教学目标和教学重难点的确立、教学内容的安排以及教学时长的设置。本文选取荣继华编写的《发展汉语初级综合(I)》中《我上了四个小时的网》一课,结合初级对外汉语综合课教学实际,有效地开展对外汉语综合课教学设计与研究。首先,本文主要介绍本教学设计所使用的教材,并主要阐述了本教学设计的教学目标、教学设计主要原则、教学设计理论基础、教学方法以及教学内容与课时
亚心型四爿藻(Tetraselmis subcordiformis)属绿藻门、绿藻纲、团藻目、衣藻科、四爿藻属,又被研究人员称为亚心型扁藻。亚心型四爿藻是广袤海洋中常见的一类单细胞的绿藻,在饵料