基于有限状态自动机的中文多模式匹配算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:shenjing1566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配是计算机应用领域重要的研究方向之一,广泛应用于入侵检测、信息检索、生物科学等方面。随着计算机网络技术的飞速发展,信息量呈爆炸式增长,如何提高模式匹配算法的性能成为了信息检索、内容过滤等领域研究的热门课题。本文介绍了几种重要的模式匹配算法,包括单模式匹配和多模式匹配算法,如BF算法、BM算法、QS算法和AC算法、AC_BM算法、WM算法等,分析了它们的时间性能,并比较了各自的优缺点。随着中文模式串数目的增加,基于有限状态自动机的多模式匹配算法的存储空间会快速膨胀,goto函数以及查询跳转距离的计算量大,从而导致算法的时空性能急剧下降。针对该问题,本文提出了带跳转距离的邻接链表存储方式,为每一状态建立一个单链表,所有单链表与顶点表构成邻接链表,并与跳转距离表融为一体,可同时完成状态与跳转距离的查询,提高了算法的时空效率。基于带跳转距离的邻接链表存储方式,设计了一种适合中文的多模式匹配算法—AC_SC算法,并分析了AC_SC算法的时空性能。最后,对有限状态自动机不同存储方式的时空性能和不同跳跃式匹配算法的时间性能进行了测试。实验结果表明,本文提出的带跳转距离的邻接链表存储方式,其空间性能远优于完全Hash表和状态矩阵存储方式,时间性能优于状态矩阵存储方式,略低于完全Hash表存储方式。AC_SC算法的平均跳转距离和时间性能优于AC_Tuned BM算法、AC_WM算法及IACBM算法,适合大规模中文模式匹配。
其他文献
随着新一代基因测序技术的飞速发展,以及单体型数据在人类遗传学等领域研究和应用的不断深入,对单体型数据的研究开始转向其他生物物种。由于测序技术的限制,通过生物学实验
在军事末端制导、遥感图像融合,医学影像诊断等领域,多传感器技术都体现出了重要的应用价值。随着传感器成像技术的快速发展,单一传感器已经无法满足实际应用的需求。作为多
粒子沉降运动在自然界中是一种很常见的现象,而且这一运动现象也广泛存在于众多领域中,例如工业应用、生命科学、环境科学和医学科学等。因此,近年来对粒子沉降这一现象的研究引
图像分类技术是计算机视觉领域重要的研究内容。图像分类性能的优劣对医学图像研究、生物数据分析、军事交通研究有至关重要的意义。伴随着机器学习的热潮,图像分类技术得到
随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信
随着对极化SAR (Synthetic Aperture Radar)图像分类研究的深入,近年来许多监督和非监督分类方法被相继提出。早期的极化SAR图像分类算法是基于其统计特性的。之后,物理散射
“眼球追”技术为研究现实生活中人们从事具体事务时如何处理视觉信息提供了一个独特的视角。该技术被有效应用于诸多学科中,如计算机科学、神经学、实验心理学等,用来量化研究
近年来数据库技术发展迅速,随着各类数据库被广泛的应用到企业、政府、科研机构等各个领域中,网络信息的规模呈现出大爆炸的趋势,人们对于这种大量的数据的分析和处理的能力
人脸识别(FaceRecognition)属于模式识别领域的重要课题之一,在门禁系统、安防系统、考勤系统、刑事案件侦破等领域都已有广泛的应用。随着社会的进步,科技的发展,人们在享受办
伴随着计算机的发展,计算机的运行速度在不断提升,但是尺寸却变得越来愈小,而近几年更是在往小型移动设备方向不断发展。正是由于PC设备的不断完善以及移动设备的快速发展,普通用