基于潜在语义分析的真核启动子识别

来源 :烟台大学 | 被引量 : 0次 | 上传用户:lych001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因识别是指采用生物学实验或计算机等手段来识别DNA序列上的具有生物学特征的片段,是生物信息学的一个重要分支。启动子是DNA序列上的一段重要的基因调控序列,标志着转录起始点的位置,可以用来定位基因。本文研究的启动子识别算法是一种基因识别工具,能在DNA序列中找出基因的大体位置,为生物学实验提供参考。潜在语义索引广泛应用于文本挖掘,本文尝试将潜在语义索引应用于真核生物启动子的识别算法中,提出了基于潜在语义索引全局模型和差异模型的启动子识别算法,并与文献结果进行了比较。最后,利用拉普拉斯矩阵的特征值分析了DNA序列集之间的相似性,将其应用于启动子识别算法的样本选择和评价中,取得了良好的结果。本文从潜在语义索引的原理分析出发,提出了一种基于潜在语义索引全局模型的启动子识别算法,通过实验验证了潜在语义索引能起到有效的降维和分类作用。对多种影响算法的因素进行了详细分析,总结归纳出了全局模型的特点和不足。在此基础上,本文又提出了一种应用潜在语义差异模型进行启动子识别的算法,通过实验验证了差异模型识别启动子的有效性,分析了表示方法和阈值等参数对于算法的影响,并总结了差异模型相对于全局模型的优点。本文提出了一种新的分离度概念,通过分析拉普拉斯的特征值来度量各种DNA序列集的相似程度。人工序列和多组真实数据的实验表明,这种相似性度量是有效的。最后,通过将该度量方法应用于启动子识别的样本选择和评价中,证实了分离度高的样本识别效果更好。本文创新点如下:(1)提出了基于潜在语义索引全局模型的启动子识别算法,与文献结果对比,得出更好的识别效果。(2)提出基于潜在语义索引差异模型的启动子识别算法,避免了全局模型算法的样本抽取和设置阈值等问题,同时进一步提高识别效果。(3)提出序列集之间的一种新的分离度概念,可有效地度量序列集合之间的相似程度,并可用于评价训练样本的识别能力。
其他文献
在经典的计算机视觉领域,由于传统的色彩视频包含信息复杂,再加上由于光照变化、烟雾等不利因素的影响,使得基于传统彩色视频的异常行为检测的效果不好,帧率很低。而红外热像
决策是管理过程中经常发生的一种活动,企业或组织发展的优劣成败关键在于高层决策者在面临复杂问题时所做出决策的正确与否。随着信息化时代的到来,决策者们越来越需要利用计算
图像超分辨率技术是一种基于信号处理方法获得较高分辨率图像的技术。它以若干模糊、有噪、频谱混叠的低分辨率图像为输入,通过信号处理技术融合出一幅高分辨率图像,因而在视
通信技术、嵌入式技术、传感器技术的飞速发展和日益成熟,使得无线传感器网络成为当前的一个研究热点。与传统网络相比,传感器网络具有以下特点:节点分布极其稠密且数目很大;
近年来,P2P(peer-to-peer)技术成为人们研究和关注的焦点,以Napster、Gnutella、BT、MSN、pplive为代表的P2P应用软件日益流行。信息共享是其最为常见的一种应用。在P2P共享
随着计算机图形学的发展,虚拟现实技术逐渐成为研究的热点和焦点。作为虚拟现实技术的重要组成部分,三维人脸建模有着越来越广泛的应用。目前该技术被广泛应用于影视制作、游
随着互联网技术的发展,Email已日益成为人类日常生活中必不可少的通信方式之一。人们之间的Email通信产生了大量的通信数据,从这些数据中挖掘出人类社会的社群结构并且分析社
随着网络使用的普及以及信息技术的不断进步,Web软件已成为一种主流的应用模式,如何确保Web软件的可靠性显得越来越重要。Web软件的特征是:用户数量大、代码量大、页面众多且
基于动态信息的城市交通诱导策略(简称为:路径诱导策略)是智能交通系统(IntelligentTransportation Systems,简称ITS)研究的一个重要方面,旨在通过向驾驶员提供基于实时交通信息
随着国际交流的日益频繁,翻译学学科地位不断提升,互联网搜索引擎辅助翻译得到不断的发展。传统的搜索引擎是基于关键词匹配的方式来进行信息检索,但是各个国家的自然语言中