基于连续重复子串左联配的正则表达式识认算法

来源 :华侨大学 | 被引量 : 0次 | 上传用户:fjzxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形式语言的归纳学习致力于研究如何从语言的有限信息出发,通过归纳推断得到语言的定义。在形式语言体系中,正则语言是一类使用较为广泛的语言类。以正则表达式为目标的正则语言学习算法在基因序列识别、XML模式推断、图数据库查询学习、信息抽取中有广泛应用。因此,对正则表达式学习算法的研究不仅具有重要的理论意义,还具有较大的实际应用价值。语言极限识认模型是语言学习的经典模型,在该模型下进行学习算法研究,不仅能确保算法的良好特性,且学习语言类具有清晰明确的界定。本文基于语言极限识认模型,研究正则表达式学习算法,主要研究成果如下所述。(1)提出了基于连续重复子串左联配的正则表达式识认框架:首先,识别句子中的最长连续重复子串;其次,基于连续重复子串分块;然后,对分块进行左联配;最后,将联配结果泛化为正则表达式。在该框架内进行算法研究,可以识认一元正则运算符作用在多个连续字符上的正则表达式,克服了现有大多数算法只能识认运算符作用在单个字符上的局限性。(2)针对标准表达式和带数字出现的表达式,分别提出了两类不同的泛化策略,并实现了两种不同的识认算法。分析出可由算法识认的表达式子类,总结出表达式子类对应的特征样本的特性。为了验证理论分析结果,本文开发了一组工具用于表达式及其特征样本的生成并进行了相关的实验,实验结果验证了理论分析的正确性。对比了本文算法和已有算法,结果表明本文算法的识认结果在紧凑性、可读性方面均存在优势。(3)探讨了识认算法在图数据库查询学习中的应用,分析出图数据库可达性查询中有一类由正则表达式定义的路径约束与本文提出的带数字出现的表达式子类相吻合,因此可将本文算法应用于图数据库可达性查询学习。总结出可达性查询学习的一般步骤,并用实例考察了本文算法在可达性查询学习中的应用。
其他文献
作为信息密集型与信息技术密集型产业,信息化是旅游业发展的内在要求与必然趋势。与之相适应,进行旅游信息的基础理论研究也是必然要求。本文从三个方面进行了探讨:旅游信息
为研究CRTSⅠ型板式无砟轨道板端脱空对轨道动力特性的影响,铺设无砟轨道实尺模型,人工凿除CA砂浆模拟板端脱空,采用激振车对轨道施加振动荷载,测试并分析轨道振动位移和加速
对助产士经历创伤性分娩事件而引起的共情疲劳现状及相关性进行综述,了解助产士共情疲劳的主要影响因素,提供相关干预措施和方法,从而降低助产士共情疲劳的发生率,提高其职业
案例2000年10月,杨某在开发商尚未取得某楼盘商品房预售许可证的情况下,和开发商签订了该楼盘某商品房的非正式购房合同。约定开发商应当最迟于2001年9月1日交付房屋,逾期交
本文从高校《食品标准与法规》课程的性质和课程体系设置入手,提出了高校《食品标准与法规》课程教学改革路径,以更好地指导高校关于食品专业教育教学工作,提高大学生的知识水平
菱角口感清香,营养丰富,风味独特;甲鱼肉质鲜美,是深受消费者喜爱的名贵水产品之一。作者经过多年的生产实践,总结出了大棚菱角—甲鱼种养模式,经济效益可观。667 m^2可采收
根据对500名学生从初一到高三六年间的调查统计,在器械体操教学中损伤的发生人次占18%,在中学体育教学项目中居首位。其中单杠占12%,双杠占9.7%,支撑跳跃占7.8%,又居各单项损伤
目的研究光叶巴豆根的化学成分。方法利用溶剂法及多种色谱技术进行化学成分的分离纯化,并运用现代波谱技术及理化性质鉴定化合物结构。结果从光叶巴豆根部的95%乙醇提取物中
我国教育技术经过几十年的发展,已成为我国教育改革的"制高点",但是在看到成绩的同时,我们还应该为教育技术事业的可持续发展进行长远规划,同时还应清醒地看到发展中的问题与隐
“红色旅游”的兴起是人民群众日益增长的精神文化生活的客观需要,是建设中国特色社会主义的必然要求.也是老区建设中出现的新的经济发展增长点。通渭榜罗镇独特而丰富的“红色