基于子图密度的序列模体发现算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qijing1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的开展与现代生物技术的迅猛发展,生物信息数据的增长呈现爆炸之势,这为揭开生命奥秘提供了数据基础;计算机运算能力的提高和国际互联网络的发展使得对大规模数据的存储、处理、检索和解读提供了理论基础。而如何运用信息科学和计算技术的手段,通过数据分析和处理,揭示海量数据间的内在联系和生物学含义,解读他们所蕴涵的结构和功能信息,进而提炼有用的生物学知识,是目前生物信息学研究的目的。模体是生命密码的一种表现形式,模体发现是揭示生物序列数据中蕴涵的生物学意义的基本方法之一,是生物信息领域的一个重要的研究问题。模体发现问题是一个NP完全问题,虽然人们已经探索出了一些有效的算法,但这些算法都具有一定的局限性。随着数据规模的不断扩大和新问题的不断涌现,很多算法已无法适应问题的需要。所以,探索更加有效的模体发现算法已成为目前生物序列模体发现研究领域中的重大课题,并受到越来越广泛的关注本文首先对模体发现算法中常用的模型进行了分析,并且对基于不同模型的模体发现算法进行了研究和分析;在此基础上,提出了一种基于最大密度子图的穷尽搜索算法,将输入序列转化为一个图,图中的顶点对应着序列中特定长度的序列片段,边上的权重表示两个顶点之间的相似度,这样可将模体发现问题转化为在图中寻找最大密度子图问题,然后利用位置权重矩阵PWM (Position Weight Matrix)模型得到模体。通过对算法进行的理论分析以及在合成数据和真实数据上的仿真实验结果表明该算法能够找到最优的模体,而且能够很好的解决(15,4)挑战问题。
其他文献
组播技术可以节省大量的网络通信资源,提高通信效率。多源组播要求组播组中每个结点都可以作为组播源发送消息,并且对组播组中的结点进行度约束。应用层组播可以在不需网络层
本文中主要研究平面型Mushroom-like型PV-PBG结构的特性,分析了表面波带隙和反射相位带隙的形成原因,总结了Mushroom-like型PV-PBG结构的等效电路模型和LRCC模型,提出了把CLR
不可否认服务(Non-Repudiation Service)是开放系统互联参考模型安全体系结构标准ISO/IEC 7498-2中描述的五种安全服务之一。它保证了网上事务办理的可追踪性及公平性,是电子
软件测试对确保软件质量有着极其重要的作用,但是手工的测试工作是非常繁琐和低效率的,因此测试的自动化就越来越成为重点。软件测试自动化主要包含了:(1)测试用例的自动生成;(
近年来,随着数据的飞速增长,以DAS、NAS、SAN为代表的存储网络系统成为大多信息系统的数据存储中心。随着存储系统的网络化趋势,存储系统逐渐成为恶意攻击者的重要目标,攻击
随着互联网的发展和人们生活水平的提高,电子商务成为了一种时尚和潮流,随之也产生了不少以商品为中心的推荐系统,这类推荐系统利用用户的浏览(购买)记录来给用户其可能想了解或购
随着近年来我国教育水平的提高和国家及各教育机构对人才培养的重视,教育相关的数据量逐年增加。在关于教育信息的申报和评审类系统中,需要对申报的关键信息进行重复检查,以保证
当今是高速发展的信息时代,互联网作为这个时代的重要标志,已经渗透到人类社会的各个领域,互联网的核心TCP/IP协议更是在人们日常的网络信息交换中起到了至关重要的作用。然
近年来,对于视频序列中人体运动行为的视觉分析是计算机视觉领域中日益受到重视的一个研究方向。随着时代的进步,这项技术也在不断的发展完善,在未来必将有广阔的应用前景并
软件测试是保证软件质量的一个重要手段。随着面向对象技术的广泛应用,特别是基于统一建模语言(UML)软件开发技术的逐渐普及,为了满足软件测试自动化的要求,基于UML的面向对