【摘 要】
:
随着人类基因组计划的完成,人类进入了后基因组时代,基因组研究的重心转向基因组信息分析,而基因剪接是真核基因组信息分析中的一项重要内容。同时,海量生物数据的出现,促使生物信
论文部分内容阅读
随着人类基因组计划的完成,人类进入了后基因组时代,基因组研究的重心转向基因组信息分析,而基因剪接是真核基因组信息分析中的一项重要内容。同时,海量生物数据的出现,促使生物信息技术成为后基因组时代的核心技术。
20世纪90年代以来,已经有一些模式识别方法被应用于基因识别中,如:支持向量机,隐马尔可夫模型,神经网络等方法,并取得了一些成功的结果。然而,这些模式识别方法在应用于剪接位点识别的过程中还存在着一些问题,例如:特征序列参数需要人为设定,选取的输入特征冗杂,特征序列没有体现位点之间的概率相关性等。
针对上述问题,本文对基于变长马尔可夫模型(Variable Length Markov Model,VLMM)的剪接位点识别方法进行了研究,主要完成了以下工作:
1.分析并总结了VLMM应用在基因剪接位点识别中的优缺点;
2.用KL(Kullback Leibler)距离来改进VLMM的序列扩展方向,以优化模型的特征选取,从而提高模型识别特征序列的能力;
3.提出VLMM的概率后缀树(Probabilistic Suffix Tree,PST)训练算法,通过遍历PST来得到VLMM的条件概率,使模型实现不仅变长而且变阶,为模型节省大量的存储空间;
4.基于所提出的以上方法构建了基于VLMM的剪接位点识别实验系统,验证了方法的有效性。
最后,对所做的工作进行了总结,并对以后将要研究的内容进行了展望。
其他文献
实际应用领域中产生了大量的数据流,例如电子商务交易记录,网络搜索请求,电信通话记录等,这些数据流中隐含着丰富的有价值的知识亟待挖掘。然而,由于数据流具有的快速性、无
及时、全面掌握网络舆情信息是当前各级地方政府要解决的一个关键问题。本文根据绵阳市政府舆情监测的实际需求,设计并实现了基于领域本体的舆情监测系统。
通过利用小
随着计算机图像及视觉处理技术的飞速发展,智能视频监控逐渐成为备受关注的前沿课题之一。智能视频监控指的是在不需要人为干预的情况下,利用计算机视觉和视频图像分析技术对
随着通信产业的快速发展,如何实现绿色通信已成为当今社会亟待解决的问题。为了降低认知无线电网络中的能量消耗,提出一个面向网络基站的节能机制。本文针对集中式认知无线电
UML类图是软件建模中最常用的图形化表示之一。类间二元关系是UML类图中的重要组成部分,它包括关联、聚合、组合关系等。鉴于UML在软件建模中的广泛应用,在软件的开发维护过程
近代科技高速发展,信息量正在呈指数级增长,有效处理海量数据是用户获得有效信息的瓶颈。人们的社交范围越来越大,发现复杂网络的社团结构,对分析复杂网络的性质及功能,获得
伴随着网络上的服务数量日益增多,如何对这些功能类似或者功能相同的语义Web服务进行有效区分成为人们亟待需要解决的问题。近年来,开始采用QoS作为标准对服务进行评价与衡量
随着我国经济建设的飞速发展和人民群众的需要,国家对公路等基础设施的建设日益重视,在交通领域的投资也逐年增加,进一步促进了公路交通事业的快速发展。交通事业的加快发展
给定图G、查询结点v以及用户指定的k值,k核心子图查询用于从G中返回包含结点v且任意结点的度均大于或者等于k的一个子图。k核心子图主要应用于朋友推荐、社交网络中的广告宣
机器人视觉系统是模拟人眼的视觉系统,采集各种场景的图像信息,在实际应用上起着关键性的作用。由于机器人视觉系统在获取图像的过程中,受到环境噪声、光照和图像存储的影响,