基于信息熵的基因组序列分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chen20080310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因序列分析是基因组信息学乃至生物信息学研究的基础,在过去的二十几年来,传统的实验手段可准确分析基因组序列,但是由于其耗时长,花费高,实验结果依赖于实际的实验环境等缺陷,采用计算机方法研究基因组序列成为必然。伴随着各种基因组测序技术的发展,生物数据数量不论是从物种水平还是基因水平都在逐年增长,因此如何有效分析基因组序列是一个有待解决的问题。信息论是对信息的度量,传递,交换和存储进行分析和解释的一门理论学科,在基因组序列分析中,信息论也是一种研究手段。其中信息熵是对信息复杂程度的度量方式,因此为了能利用信息论对基因组序列进行分析,本课题以信息熵为理论基础,对DNA序列中的外显子序列预测问题及必需基因序列识别问题进行了研究。针对DNA序列研究提出了许多基于信息熵的研究方法,其中外显子和内含子是DNA序列中最重要的成分,它们的预测始终是最热门的研究重点。因此本课题设计了一种基于信息熵的外显子预测方法,我们优化并实现拓扑熵和广义拓扑熵来计算DNA序列的复杂性,突出重复序列的特征。通过比较外显子和内含子的数字化熵值,观察到它们是显著不同的。将DNA数据转换为数值拓扑熵值后,我们应用SVD方法有效地研究了单个基因序列上的外显子和内含子区域。此外,我们收集了五个物种的若干基因序列数据用于外显子预测,实验结果验证了我们的方法不仅有助于探索DNA序列的复杂性功能元件,而且基于熵的GSP方法在不同物种中也是可行的,还可扩展到DNA序列的其他功能元件研究。必需基因的预测是计算生物学领域中最具挑战性问题之一。在真核生物基因组中,必需基因占全部基因的比例大约三分之一。预测细菌或原核生物必需基因有助于回答支持细胞生命所需的基本功能是什么。本课题中我们提出了一种基于信息熵的特征提取方法来预测必需基因。我们优化了拓扑熵及广义拓扑熵的计算,并生成了6个新特征,结合其他91个常用信息理论特征,我们应用机器学习中的Xgboost算法和随机森林(RF)算法对15种选定细菌中的必需基因预测。在各个交叉验证的实验结果表明本文所提的方法可有效识别必需基因,并且本文提出的方法可用于预测DNA序列中的其他功能元件。
其他文献
电子公文作为一种新型公文类型,在信息技术支撑下已经完全可以取代传统纸质公文,并具有纸质公文无法实现的应用优势。电子公文是借助互联网平台、软件技术等技术手段而实现的
目的探究抑郁症患者自杀意念的影响因素,以及艾森克人格特质和特质应对方式对于抑郁症患者自杀意念的影响。方法本研究采用便利取样的方法,选取于2016年11月至2018年2月就诊
[问]编辑老师: 愿借贵栏一角,请教两个问题。 一,《日汉翻译自学指南》第六课上有:△芝居言,和田君主役,舞台上手下手通
以马来酸酐和丙烯酸为单体,过硫酸钠为引发剂,亚硫酸氢钠为还原剂,采用水溶液聚合法,合成了用作洗衣粉代磷助剂的马来酸酐-丙烯酸共聚物[m(马来酸酐):,m(丙烯酸)=1:2].引发剂
<正> 随着人民生活水平的提高,人民对有效的保健食品越来越推崇和青睐。后起之秀“黑色食品”,以它天然独特的保健功能,备受广大人民群众的偏爱,发展迅猛,因而在国内外食品市
教育和技术是文化的重要组成部分。将教育技术纳入文化视界中加以考量,旨在揭示教育、技术和文化之间的内在联系。以场域论为指导,尝试架构教育技术文化场,进而提出文化进化“流
讨论了ρ-不变凸多目标规划对偶理论,证明了弱对偶,直接对偶定理。
网络教学管理是网络教学中亟待解决的难题。在网络环境下,"网络教学资源"不但是知识载体和知识传达者,而且具有潜在的管理能力。因此利用"网络教学资源"对学习过程进行管理(引导、
短距光纤的带宽测量一直是国际上的难题。根据短距光纤带宽测量原理,建立了一个全新的光传输性能参数综合眼图衰减SEA(Synthesized Eye-diagram Attentuation),通过搭建Wideo
网络文学以其娱乐性、贴近读者的文本特征收获了大批读者,也吸引了影视行业探求网络文学与影视融合发展的文化创新。随着大量网络文学IP搬上荧幕并取得不俗成绩,网络文学的影