基于信息离散度的DNA序列相似性分析研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:jettey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的实施,以及对各种生物的基因和蛋白质序列研究的逐渐深入,各种序列数据库、结构数据库等越来越庞大。如何有效地分析这些大规模的数据,并对其进行加工、处理和建模,从中发现规律以指导生物学研究和实验,是当今生物信息学研究的重要内容。序列相似性分析是生物信息学中的基本问题,其分析结果可广泛应用于物种分类、结构和功能预测、物种进化分析等领域。本文基于信息理论方法对DNA序列的相似性和聚类进行分析。以子序列概率分布表示序列特征时,FDOD函数具有增加性、继承性、存在最大值等良好的数学性质,在生物信息处理中得到广泛的应用。在此基础上,本文提出了一种新的基于信息离散度的DNA序列相似性分析方法。该方法用BB信息集表示序列特征,利用不同距离的碱基对的联合概率分布的离散度来表示序列之间的差异,考虑了16种碱基对的联合概率分布,以及同一种碱基对在不同距离下的概率分布。BB信息集的规模随着碱基对之间距离的增加呈线性增长,而FDOD方法中信息集的规模随子序列长度的增加呈指数增长。当BB信息集变化时,序列间的距离值变化较小,能有效降低对信息集选取的依赖性。我们对8种H5N1型禽流感病毒的HA片段和11种SARS病毒基因进行相似性分析,实验结果表明,该方法能对相似性较高的序列进行有效度量。本文对FDOD函数与Shannon熵、广义信息距离与Shannon熵的关系进行了分析,FDOD函数反映序列合并后的平均信息量的变化,而广义信息距离反映序列合并后的总信息量的变化。在此基础上,我们利用序列长度校正因子对FDOD函数和广义信息距离进行修正,提出了一种新的基于信息离散度的序列差异度量方法——修正的广义信息距离。该距离既能度量高度相似的序列,也能对长度差异较大的序列进行有效度量。我们基于修正的广义信息距离构建了一种直接聚类算法,分别对一组长度相差较大的序列和一组相似度较高的序列进行聚类分析,实验结果表明,该方法取得了较好的效果。
其他文献
在实际的数字电视节目摄录过程中,摄像机直接输出的是YCrCb的串行分量视频信号,由于市面上没有带对应视频接口的数字显示器,造成摄录过程中不能够实时监看,节目录制效果的好
随着科学技术的高速发展,X射线检测在军事、科研、工农业生产、医疗卫生等领域的应用越来越广泛,使得该领域对于实时图像处理器的需求也越来越迫切。然而由于现有系统的图像
随着多媒体和网络技术的飞速发展与广泛应用,数字多媒体产品的存储、处理和传输变得越来越方便和快捷,但同时带来了潜在的安全隐患,因此对数字媒体内容的真实性和完备性的鉴
红外小目标跟踪技术是计算机视觉中一项具有重要意义的课题。对于图像序列中的运动小目标进行目标跟踪在许多领域都有着重要的应用,如导弹制导、数字影像监控、医疗及智能交
随着无线网络技术和视频编码技术的发展,无线视频传输的需求日益增长。为了满足在多种无线网络环境下获得最佳的视频传输的需求,无线视频传输系统应该具有网络感知能力和自适应
近些年来,宽带无线接入技术飞速发展,IEEE 802.16标准便是一种面向互联网的高速连接、极具发展潜力的宽带无线接入标准。IEEE 802.16标准主要应用于城域网(MAN),可实现话音、
随着计算机、数字处理及图像压缩等技术的迅猛发展,广播电视进入了数字电视发展的新时期。数字电视以其潜在的广阔市场和巨大的经济效益,已成为国际高科技领域研究开发的热点
正交频分复用(OFDM,Orthogonal Frequency Division Multiplexing)技术是一种利用并行、低速率的子载波进行传输数据以实现高速率通信的技术,其特点是各子载波相互正交,从而减小
智能交通系统(简称ITS)是目前世界上各个国家交通运输领域竞相研究和开发的热点。我国在该领域的研究正逐步展开,并展现出非常诱人的应用前景。本文针对ITS领域中的关键技术,研
无线传感器网络(WSN)是一种集中了传感技术、嵌入式技术、分布式信息处理和无线通信等技术的新型网络技术。它在军事、民用和其它的商用领域有着很高的应用价值和广阔的应用