基于字符信息量法则的串匹配算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:yuanjinxing1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配问题是文本信息处理领域中的一门非常重要的课题。随着网络和信息技术高速发展,极度膨胀的信息量,使得对信息处理的性能和效率要求越来越高,在某种程度上,字符串匹配的效率甚至成为了人们准确获取自己所需信息的瓶颈。在科学领域(比如计算机科学、生物学、人口统计学、金融等)、自然界和社会生活中(比如单词频率、数字中首数字出现的频率等)很多的现象,被证实内在的很多特性都符合幂律分布的规律。幂律分布利用统计规律揭示了许多表面上看起来丝毫没有关联的事物之间的关系,而这种关系或称之为不平衡性。事实上,不平衡性的分布特点可以从另外一个角度帮助大家研究和理解事物本质。Zipf定律、Heaps定律、Benford定律等便是研究长尾分布的几种重要定律。本文以Zipf定律、Heaps定律、Benford定律为参照,首先研究英文单词词表中不同字符所蕴含的内在特性,并提出字符表征单词个数,即字符的信息量的概念,验证表明字符倒序排名与其信息量的分布也符合幂律分布,并据此提出字符信息量的法则。更进一步的,本文通过字符的信息量的不平衡性特点用于指导字符串匹配算法问题的研究。并经过实验得出,基于字符信息量的法则可以很快的加速字符串匹配的过程,提高字符串匹配算法的性能,结合字符信息量的法则,本文提出了基于字符信息量法则的字符串匹配算法的三个变种算法:SMCI-no-sort算法、SMCI-partial-sort、SMCI-all-sort算法。实验表明字符信息量的法则在字符串匹配问题上,可以加速模式串在文本串中的跳跃过程,从而提高字符串匹配的速度。具体来说,本文具有创新的研究成果主要体现在以下几点:1,定义了用字符来表征单词的概念和字符蕴含的信息量概念,通过实证,得到字符的排名倒数与字符蕴含的信息量同样符合幂律分布,进而提出字符信息量法则(Character’s Law).2,提出SMCI-no-sort算法;该算法思想是完全基于字符的倒排索引结构进行字符串的查找,通过字符分布的不平衡性,加速字符查找过程。该算法预处理过程只需建立倒排索引结构,而不涉及子串的排序操作,所以预处理时间消耗很低。3,提出SMCI-all-sort算法;该算法与SMCI-no-sort算法对应,在预处理阶段通过对所有列表进行排序,在搜索时,根据完全有序的列表,只需要进行二元搜索。4,提出SMCI-partial-sort算法;该算法充分利用了字符分布的不平衡性和不同字符所表征单词的信息量不同,选择部分列表进行排序,从而提升预处理阶段的性能和搜索阶段的效率。
其他文献
Skyline查询常用在数据挖掘和决策支持系统中,用于数据的多条件优化。但早期有关skyline查询的研究仅限于确定数据集,不确定数据流上skyline计算问题刚刚起步。而且,不同用户所
无线Ad Hoc网络是一种开放的、无中心、自组织、多跳的网络,可以随时随地快速构建起来。Ad Hoc网络最初用于军事研究领域,由于其组网灵活、快捷,越来越多的研究人员重视其在商业
在近些年,树挖掘和模式分类已经成为数据挖掘经中相当活跃的研究领域。同时,由于数据多以连续流形式出现,需要考虑数据分布随时间而改变,例如感知器网络、web日志、生物学中
自然界中存在的大量的复杂系统都可以用网络对其进行建模,社团结构是在各类网络中都普遍存在的一种结构特性。将网络中的结点划分到不同的社团,呈现这样的现象:社团内的结点联
G蛋白偶联受体(GPCR)的结构特征及其在信号传导中的重要作用,决定了其可以作为重要的药物靶标, GPCR在制药领域中占有极其重要的地位。由于生化实验方法很难得到其三维结构,所以
当今社会,生物识别技术的迅速发展,带动了手写体笔迹鉴别(Handwritingidentification,HWI)的发展,如今手写体笔迹鉴别已经成为计算机视觉和模式识别领域中的一个研究热点,而且基
图像自动分类管理是数字化信息时代人们的迫切需求,同时也是智能化信息处理领域研究的难点之一。人类视觉系统通过对外界环境感知能够快速抽取图像语义信息,基于这一机制,研究基
不规则板材圆形优化排样在工业设计与生产中经常用到,具有很高的理论意义和应用价值。一个排样效果好,效率高的求解算法是该领域所要达到的目标。本文深入研究了排样问题的研究
虚拟化技术是创建灵活动态的企业级设施架构的关键机制。随着多处理器技术的发展,计算能力有了很大提高,也加速了虚拟化技术这一关键机制的发展。虚拟化技术可以屏蔽底层复杂
随着网络技术的不断发展,互联网应用领域也在迅速的发展。人们不再仅仅要求信息应用的功能富集化,对服务质量也提出更多要求,特别要求应用的稳定性和安全性。Web ActiveX组件作