位置自动机的优化表示与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:mgy1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正则表达式匹配在计算机科学中有着广泛的应用。非确定性有限状态自动机(NFA)是实现正则表达式匹配的重要方法,主流的非确定性有限状态自动机一般分为两类,一类为Thompson架构,由K.Thompson于上世纪60年代提出,Thompson架构思路简洁,但是存在大量冗余状态,与空状态转换(e-transiton),典型的Thompson架构存在大约2m个状态(其中m为正则表达式长度);还有一类为Glushkov架构,相比之下,Glushkov架构具有两大优点:其一没有空状态转换;其二Glushkov自动机状态数等于正则表达式长度加1。没有空转换使得Glushkov架构转换数目较Thompson架构要少,状态数等于正则表达式长度加一,使得自动机的状态与正则表达式的位置能方便的建立起对应关系,因此Glushkov自动机又叫位置自动机,并可以采用比特并行的方式实现活跃状态集转换。此外,与Glushkov类似的Follow自动机也没有空转换,Follow自动机根据状态的Follow集元素分类,将Glushkov自动机的部分状态合并,拥有更少的状态数,从而在理论上拥有较Glushkov自动机更好的性能。本文主要工作是研究了位置自动机的高效比特并行实现方法并进行了实验验证。一方面研究了改进Glushkov自动机的比特并行匹配方法。由Glushkov状态的性质,通过自动机状态分类处理,对Glushkov自动机的Navarro-Raffinot方法(NR方法)进行了改进。本文研究了“扩散函数与提取函数”、“位扩展”等方法实现进一步的空间压缩。对于特殊的位置无冲突集合,应用扩散与提取函数能在单位时间内完成一个字长的匹配工作,应用位扩展方法对于一般的位置冲突向量也能在单位时间实现比特并行匹配;另一方面比较了Glushkov及Follow两类自动机性能。对于某些特例,Follow自动机具有好于Glushkov自动机的性能,而从总体上来看,在正则表达式子串数目较少时,Follow自动机的状态数均值上界小于Glushkov自动机,此时Follow自动机平均性能优于Glushkov自动机,随着正则表达式子串数目逐渐增大,Follow自动机的状态数均值上界与Glushkov自动机状态数均值上界基本一致,这意味着两类自动机平均性能是相同的。
其他文献
背景急性心肌梗死(acute myocardial infarction,AMI)是一种全球范围内的急性缺血性心脏病,其发病因素主要是在动脉粥样硬化的基础上,堵塞冠脉血液循环,引起局部心肌缺血,造
<正>蒙古的永久中立有其国家发展的必然性,在蒙古经济下滑明显的具体情境下,这种"中立"将会对中国推进"一带一路"倡议产生怎样的影响?2015年10月20日,蒙古国外长普日布苏伦在
利用武汉站风廓线雷达和地基微波辐射计获取的高时空分辨率资料,结合雷达回波和地面自动站加密观测资料,分析了2011年6月9日武汉短时强降水过程的中尺度对流系统。结果表明:
<正>"一带一路"倡议由中国国家主席习近平提出。沙特阿拉伯作为古代海上丝绸之路途经的重要国家,做出积极参与中国提出的"一带一路"倡议的重大战略决策。沙特政府对"21世纪海
现代市场经济要求企业营销活动引进文化内涵,因此,以文化力为基础,开展文化营销,已日益成为引人注目的话题。本文分析了文化营销的现状与发展态势,以及企业文化营销实施中存
<正>2014年10月,李克强总理出访欧洲三国,德国是他此次欧洲之行的第一站。访问期间,李克强总理与默克尔总理共同主持第三轮中德政府磋商,双方签署50项商业和政府间协议,双边
植物膜蛋白质组学的研究是蛋白质组学研究者关注的焦点之一,但由于膜蛋白具有低丰度、疏水性等特点,因此膜蛋白的富集提取、分离鉴定存在很大的难度。从膜蛋白的富集提取、分
自上世纪七十年代末,中国实行对外开放以来,国家加大了与其他国家的经济文化往来,国内各行各业发展势头越发迅猛,国有企业作为国家的中流砥柱,为了更好的适应时代发展的需要,
慢性病已成为当今中国面临的重大公共卫生问题和社会问题。在农村地区,慢性病形势尤为严峻。通过知情人深入访谈、半结构焦点小组访谈等定性研究方法,旨在进一步探究和解释我
<正>据《江苏省志·宗教志》载:“江苏佛教,始于东汉。《后汉书·陶谦传》‘谦使笮融,督广陵’,‘大起浮屠寺,上累金盘,下为重楼,又堂阁周四,可容下三千许人。作黄金涂像,衣