基于子序列分布变化的对比序列模式挖掘研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:qq774257837
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对比序列模式挖掘是数据挖掘中的一项重要研究任务,旨在发现不同类别的序列数据之间的差异。如何从序列数据中高效地挖掘有意义且易于分析的模式是当前研究需要解决的一大难题。目前研究人员已经设计了许多关于对比序列模式挖掘的算法,然而大多数算法都是基于出现次数或支持度框架,忽略了子序列的分布对模式的影响。虽然已有算法在显露序列模式挖掘中考虑了子序列的位置信息,但是该算法使用固定位置来识别不同子序列在不同类别的序列数据中的分布差异,即,子序列模式在一类序列数据集中频繁出现在给定区分位置之前,而在另一类序列数据集中频繁出现在该给定位置之后。在没有足够先验知识的情况下,用户很难设置恰当的位置阈值,并且不同的子序列其区分位置可能不同,因此,设置固定位置阈值可能会忽略许多有意义的模式。考虑到大量序列数据包含时间标签,在分析序列数据时其时间属性也是不可忽略的一个要素,设计一种能够自动分析事件时间分布差异的算法将有助于决策者做出正确的决策。此外,随着大量生物数据的产生,研究能够自动地分析不同类别的生物序列差异的方法是亟待解决的难题。然而,之前以对比序列模式挖掘为中心的相关研究均未考虑基因/氨基酸的空间位置分布对给定生物序列的影响。针对以上问题,本文的主要贡献如下:(1)提出了一种基于子序列时间分布变化并满足离散性约束的对比序列模式挖掘方法。基于后缀树的设计,该算法首先将数据集中每条序列生成的所有后缀子串映射到树中的每条路径上,节点保存项的时间信息以及计数。然后通过深度优先的搜索方式访问树中的每个节点,挖掘满足相应条件的模式。同时,针对时间序列提出一种离散性约束以确保子序列时间分布的紧凑性。在用户行为数据集以及在线零售数据集上的对比实验结果表明,本文提出的算法能够挖掘更多且更有意义的模式,并且模式的分类性能更佳。(2)提出了一种从生物序列中挖掘基于子序列空间位置分布的对比序列模式的方法。该算法将数据集中的每个实例及其所有后缀子串都映射到树中的每条路径上,通过深度优先的方式挖掘满足相应条件的模式。与基于子序列时间分布变化的对比模式树的不同之处在于,每个节点存储的是项的位置信息以及计数,并优化了该模式树的性能。实验结果表明,使用本文提出的模式用于生物序列的挖掘研究是有意义的,并且利用该模式作为分类特征能够提高算法的分类性能。
其他文献
研究区在构造上位于济阳坳陷车镇凹陷东部郭局子洼陷南坡。周边被四扣洼陷和邵家洼陷以及义和庄凸起包围,勘探程度较低,油气潜力大,勘探价值高。由于研究区钻井、古生物以及
虾酱是我国及东南亚沿海地区的传统发酵类水产品,因其独特的风味和丰富的营养深受广大消费者的喜爱与青睐。盘锦蜢虾酱是由生长在盘锦地区辽河与渤海交汇处的蜢子虾,与占其比重为15%20%的食用氯化钠混合经数月的发酵得到的。作为发酵水产品中的一类,虾酱中的微生物群落及其微生物的作用一直被广泛关注,本文通过菌落形态特征、16S rRNA分析鉴定了盘锦蜢虾酱中的嗜盐微生物。发现了一株经细胞形态学、生理生化以及分
地下水海底排泄带来的陆源污染造成的近海海域生态环境恶化是一个世界性问题.尽管水文地质学家对滨海区含水层系统中地下水对潮汐响应解析解与数值解进行了大量的研究,但复杂模型的地下水对潮汐响应仍是未知的.在滨海区含水层系统中地下水对潮汐的响应亟待研究.影响地下水对潮汐响应的因素很多,例如:含水层压力传导系数、含水层类型、潮汐、底部斜坡、渗漏等.为了更好地了解地下水在滨海区含水层系统中的传播机理,我们建立了
森林公园的建设,可以有效地保护森林资源,改善生态环境,在适当开发的基础上,为人类提供良好的保健、养生的好去处,也可以满足人们对原始自然风光的享受。本文对海陵岛丝路森
林樊家油田林中九块北部经过几十年的开发,目前处于中高含水阶段,注水利用率低,现有井网不再适应油藏开发,为解决目前研究区开发过程中存在的主要问题,改善开发效果,提高油田
随着社会的进步,性能优异的高分子材料与人们的生产生活早已密不可分,然而大多数高分子材料易燃,若不加以阻燃改性则易引发火灾,因此阻燃剂的研发及其在高分子材料中的应用已
电化学储能技术不受地理地形环境的限制,可以对电能直接进行存储和释放,因而引起了广泛关注。在电化学储能器件的组成中,电极材料的微观结构是电化学储能性能的直接影响因素,
随着“生态文明”、“美丽中国”、“生态园林景观”、“互联网+”等概念在政府报告、国家方针政策里面被提及的频率越来越高,园林行业如何整合现有资源,在这个变革的大背景
青蒿素提取自传统中药黄花蒿,是一种含有独特过氧桥键、具有抗癌活性的倍半萜内酯化合物。由于青蒿素具有天然的肿瘤靶向性,因此关于青蒿素及其青蒿素衍生物抗肿瘤活性及机制
二连盆地乌兰花凹陷是近年内蒙东部勘探的重点,该凹陷具备良好的油源条件,发育多种岩性储层,断层构造复杂,不同构造带成藏条件差异较大,油气成藏主控因素不明确。本文在明确