基于通配符和长度约束的近似模式匹配问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:weike112121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物信息计算、网络入侵检测、文本检索等领域数据量的激增,如何从中快速地提取用户感兴趣的信息成为了一项重要的研究课题,而模式匹配与挖掘是其中的重要组成部分,引起了国内外研究学者的广泛关注。为了增加用户模式查询的灵活性,通配符和长度约束的概念先后被引入模式匹配问题中。本文首先针对带有通配符和长度约束的近似模式匹配问题进行研究,用户可以自行定义模式字符间通配符的范围、模式的最短长度和最大长度以及允许出现的编辑误差。对该问题的研究,不仅完善了近似模式匹配中通配符的引入问题,而且在许多实际领域同样具备应用价值。随后,本文将该问题扩展至带有通配符和One-off条件的近似模式挖掘,解决了带间隔约束和误差的频繁模式挖掘问题。本文的研究工作主要包括以下三个方面:(1)根据文本字符是否满足One-off条件,针对带有通配符和长度约束的近似模式匹配问题分别提出了APM算法和APM-OF算法,并与同类算法Sail-Approx进行实验对比,结果表明APM和APM-OF算法解的平均增长率分别达到了12.37%和8.34%。同时,对影响算法性能的三个主要参数进行了实验与分析,发现当编辑误差k较大,模式P中字符(非通配符)的个数m适中,局部长度约束下限N很小或很大时解的增长率最为明显,可分别达到31.43%和18.78%。(2)将APM-OF算法扩展至带有通配符和长度约束的近似模式挖掘,提出了MAP算法。在与OneoffMining算法的实验对比中,结果显示MAP算法挖掘出的频繁模式个数约为OneoffMining算法的2.07倍。(3)构建了解决带有通配符和长度约束的近似模式匹配和挖掘问题的原型系统,并通过实例对系统进行演示说明,为模式匹配和挖掘进一步的研究提供了一个良好的平台。
其他文献
多包接收技术可以同时接收多份数据包,减少信道冲突,提高无线网络的吞吐量,近年来成为无线网络的研究热点,本文在分析多包接收物理层实现技术的基础上,通过调节节点发射功率,采用跨
虚拟现实技术一直是计算机图形学领域的研究热点之一,而三维模型作为事物在虚拟世界中的表现形式,场景的快速生成一直被人们所重视。植物是常见的自然景观,其自身的复杂性决定了
21世纪是生命科学和信息技术的世纪,共调控基因挖掘是生物学家在基因功能关联领域研究工作的核心之一。DNA微阵列芯片的发展使作为生物信息学数据源的表达水平数据已经能够通
随着信息技术的发展,审计领域的信息量剧增,传统的计算机辅助审计软件在处理这些巨量信息时,逐渐表现出审计周期长、智能化程度低的局限性。为了克服这些局限性,本文提出了智能提
随着企业中各种应用系统的投入运行,企业积累下了大量的、宝贵的历史数据,激烈的市场竞争迫使企业必须引入商务智能来充分利用这些海量信息资源,从中获得有价值的信息,协助中高层
协作通信作为近年来发展起来的一项新技术,主要利用无线信道的广播特性这一潜在的资源,使网络中的节点可以相互协作进行分布式传输和信息处理。协作通信能够提高通信容量、速率
作为一种新型无线网络,机会网络广泛应用于社会各个方面,包括外太空网络、长距离无线链路、自由空间光通信、陆地移动网络和军事自组织网络等。它具有链路间歇连接、数据传输率
社保审计是监督社会保障制度实施过程的一种重要手段。审计人员在社保审计过程中需要查找很多信息资源,而审计方法是其中重要的一种信息资源。目前智能信息处理早已是计算机领
目前正处在IPv6过渡阶段,由IPv4过渡到IPv6是一个长期的过程,IPv6过渡技术是解决IPv6过渡时期IPv4和IPv6互通的重要手段。本文研究了IPv6过渡技术的实现原理、特点与优缺点,分析
移动计算方式的出现打破了传统数据库和计算方式都是基于有线网络和固定主机的假设。而与目前快速发展的移动通信技术和互联网技术结合催生的移动实时数据库更是具有很好的应