基于后缀树和后缀数组的带有通配符多模式匹配研究

来源 :合肥工业大学 | 被引量 : 1次 | 上传用户:ivan107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的多模式近似匹配,相比正则表达式、单模式匹配和精确模式匹配,可以解决更加复杂的模式匹配问题,如从海量异构数据的碎片化知识中提取有价值的信息等。因此,根据带有通配符的模式特性,借助后缀树、后缀数组等高效的数据结构及其相应特性,对带有通配符的多模式近似匹配问题研究具有重要的研究意义和应用价值。目前对于带有通配符的模式匹配多是针对单模式匹配,而对于多模式匹配的研究更多的是针对精确匹配,对于带有通配符的多模式近似匹配问题的研究相对较少。而后缀树、后缀数组在精确字符串匹配中非常高效,常用于查找字符串中的频繁子串、最长重复子串、最长公共前缀及回文串等问题,而在近似匹配中多是理论分析,缺少实验分析及论证。因此,采用后缀树、后缀数组的方法进行带有通配符的多模式近似匹配研究具有重要的研究意义。本文在对国内外有关带有通配符的模式匹配、多模式近似匹配、后缀树和后缀数组在近似匹配中的理论研究以及其相关数据结构特性,进行分析总结的基础上,提出了基于后缀树和后缀数组的新算法,用于解决带有通配符的多模式近似匹配问题。本文的主要研究内容和创新之处,总结如下:(1)实现后缀树在近似模式匹配中的应用研究。给定一个由精确字符和通配符组成的模式P,在目标序列S中,查找该模式出现的次数或位置,即带有通配符的模式匹配。这一问题属于近似模式匹配,而后缀树常被用于精确模式匹配中,在近似模式匹配中多是理论分析。为此,本文结合后缀树的特性,采用两种方法实现了其在带有通配符的单模式近似匹配中的应用研究,然后通过算法设计及对比实验分析,总结出后缀树可以应用于带有通配符的近似模式匹配,但由于其建树需要一定的时间,对于带有通配符的单模式匹配问题,应用后缀树的方法存在局限性。(2)提出了基于后缀树的带有通配符多模式匹配算法MMST。通过上一个研究结果发现,后缀树可以应用于带有通配符的近似模式匹配中,但是因为建树耗时,不适用于单模式近似匹配。由于后缀树具有一次建树,多次使用的特性,为此,采用动态规划和编辑距离方法,设计实现了基于后缀树的带有通配符的多模式近似匹配算法MMST-S和MMST-L。根据模式中精确字符的长度选用不同的算法,通过算法设计以及在真实的生物信息学数据中进行对比实验论证。实验结果表明,后缀树可以应用于多模式近似匹配中,当目标序列不变时,匹配模式数量越多,MMST算法相比其他对照算法,算法效率越高。(3)提出了基于后缀数组的带有通配符的多模式匹配算法MMSA。后缀数组是一种在后缀树的基础上进行优化的、更加高效一种的数据结构。相比后缀树,后缀数组将所有后缀按照字典顺序进行排序,并存储在数组中。尽管排序会耗用一定的时间,但是排序后的后缀,结合后缀数组的其他特性,可以更加高效地排除更多不可能存在匹配结果的位置。因此,后缀数组也可应用于带有通配符的多模式匹配问题。通过在DNA序列和蛋白质序列中的实验论证,验证了基于后缀数组的带有通配符的多模式近似模式匹配算法MMSA,在目标序列不改变时,MMSA算法相比其他对照算法,随着模式数量增多,算法效率越好,在某些条件下优于基于后缀树带有通配符的多模式匹配算法。
其他文献
随着环境和能源的严苛要求,电动汽车已成为当前和未来很长一段时期汽车产业发展的趋势,正加速向电动化、智能化、轻量化方向发展。与目前集中式驱动的电动汽车不同,分布式驱动电动汽车具有传动高效、结构紧凑、各轮驱动与制动力矩独立可控等特点,动力输出更加平稳高效,被认为是未来低碳社会与智慧城市的主要交通工具之一。分布式驱动电动汽车取消了差速器等传动系统的机械连接,由四个独立的轮毂电机直接驱动,这对提升汽车稳定
传统特征选择方法在进行特征选择前,特征空间中的所有特征都已存在并且其特征值是可获取的。然而,在实际应用领域的许多具体问题中,存在很多无法预先获取整个特征空间,并且其特征以流的方式存在的场景。为此,出现了面向特征流的在线特征选择方法研究。特征流是指特征数据以流的方式逐个或成组到达,且无法提前获知整个特征空间的信息。随着大数据时代数据体量和维度的剧增,传统批处理模式的特征选择方法因不具有增量处理特性,
自从实时渲染的技术面世以来,一度成为影视动画行业热议的焦点。随着计算机硬件的不断进化与软件研发的技术突破,实时渲染技术也经历了几个发展阶段,已经日趋成熟,以其为技术核心的虚幻引擎在游戏、数字艺术、工业设计、虚拟制片等领域的应用也十分广泛,一方面实时渲染技术的革新使三维动画的创作焕发了新的生机;但随着该技术的日渐普及,其昔日的优势也成了发展的瓶颈。如何应用实时渲染技术在三维动画创作中进行创新与突破,
人们身处在跨模态环境,人工智能要更好地理解人们所处的环境,则需要具备解析跨模态信息的能力。通过模态学习搭建能处理和连接跨模态信息的模型。如在内容理解领域,需要分析文本、图片、视频、语音等跨模态数据对应的不同级别特征和其他辅助描述特征等。因此跨模态媒体分析是目前人工智能研究中重要的课题之一,它为不同表现形式(模态)数据间提供了沟通的桥梁。根据跨模态数据的不同表现形式,研究者将跨模态媒体分析任务细分为
表示学习又称表征学习(Representation learning),是利用机器学习或数据挖掘算法获取实体或者关系的向量化表达。表示学习的目标是,通过机器学习将研究对象的语义信息表示为稠密低维实值向量。机器学习和神经网络领域顶尖专家Yoshua Bengio教授对表示学习的重要性进行了阐述:“机器学习算法的成功通常取决于数据表示,这是因为不同的数据表示可以或多或少的包含和隐藏数据变化背后的可解释
让计算机精确地了解人的情感状态是实现人机交互的前提。生理信号是人体器官相互作用产生的生物电信号,能够自发地反映出人类内心的真实情感。在不同环境下提升生理信号的情感识别性能是许多科研人员一直追求的目标,根据个体、激励素材和应用场景的不同,多模态生理信号样本的分布差异性会严重影响到生理情感识别的效果以及模型的泛化能力。鉴于此,本文在不同实施性能的验证方案下分别基于传统生理信号识别方法和神经网络框架对情
叶片衰老是叶生命周期中的最后一个重要阶段。它不是一个简单的退化过程,而是一个受到高度调控的生物学过程,旨在将有价值的资源回收并重新分配给活跃生长的器官。叶片衰老的发生与进程受到严格的动态控制,涉及调节因子之间复杂的协同和拮抗作用。本研究在番茄中鉴定了一个新型的叶片衰老调控因子Sl BSD1。亚细胞定位和转录激活试验表明Sl BSD1定位在细胞核中并具有转录激活活性。Sl BSD1基因的下调表达导致
随着互联网的飞速发展,每天都会产生大量社会多媒体数据。这些社会多媒体数据中包含大量的关系信息,它们被广泛用于推荐系统、专家发现等重要的应用以挖掘有价值的信息。网络(数据结构)被广泛用于建模社会多媒体数据中的关系信息,网络结构的社会多媒体数据又被称为社会多媒体网络。近几年来,随着深度学习等机器学习技术的发展,涌现出大量面向社会多媒体网络的应用。实现这些应用所需要解决的基础问题之一,是如何有效地学习网
精度是高端数控机床重要的性能指标。热误差是由于机床加工过程中,零部件热变形引起的刀具和工件之间的额外偏移,占据数控机床总误差的40%~70%,严重影响机床加工精度。热误差补偿技术是目前减小机床热误差最为有效的途径,需要首先对机床多点温度和热误差进行同步测量,然后根据测量数据,选出对热误差影响占主要权重的点,称为温度敏感点,进而建立温度敏感点和热误差之间的数学模型。利用模型,通过测量机床温度预测热误
电致变色材料可以通过施加一个相对较低的偏压(通常<5 V),在可见光和红外区域实现透过、吸收与反射率的动态可调,从而保证太阳能的高效利用并且可以应用于智能窗、电子纸等相关节能设备。电致变色材料的记忆效应与不发光特性,也使其有望应用于下一代零消耗人眼友好型图像显示设备。与此同时,电致变色反应过程中发生的离子嵌入/脱出也会产生赝电容行为使得材料具备储能特性,这使得我们可以通过制备电致变色超级电容器双功