【摘 要】
:
随着计算机技术在各个领域的广泛应用,信息量也在呈指数增长,庞大的数据量对查询请求处理也带来了新的挑战。另一方面,用户对查询也有了更高的要求,简单的查询处理已经不能满足用户的需求,复杂模式匹配的重要性日益显著。复杂模式匹配包括正则表达式匹配、近似匹配、模糊匹配等,其中正则表达式匹配与近似匹配在许多领域都有着广泛的应用。例如,在生物信息学方面,正则表达式用来描述具有相同结构的基因序列或者蛋白序列集合,
论文部分内容阅读
随着计算机技术在各个领域的广泛应用,信息量也在呈指数增长,庞大的数据量对查询请求处理也带来了新的挑战。另一方面,用户对查询也有了更高的要求,简单的查询处理已经不能满足用户的需求,复杂模式匹配的重要性日益显著。复杂模式匹配包括正则表达式匹配、近似匹配、模糊匹配等,其中正则表达式匹配与近似匹配在许多领域都有着广泛的应用。例如,在生物信息学方面,正则表达式用来描述具有相同结构的基因序列或者蛋白序列集合,然后利用正则表达式在基因序列库中匹配相应的结果;为了拼接通过测序抽取得到的较短的基因序列,需要通过近似子序列匹配的方法将基因序列与参考序列进行比对。在知识图谱领域,正则表达式用于描述一组实体的公共特征,并用于从大量的文本数据中抽取出匹配的信息。此外,近似子序列匹配还被广泛地应用于数据集成与数据清洗。研究高效的复杂模式匹配方法具有重要的理论价值和实际意义。本文主要研究了正则表达式匹配与近似子序列匹配这两类复杂模式匹配问题,提出了多种基于索引结构的高效复杂模式匹配方法与优化技术。具体来说,本文的主要研究内容和创新成果包括以下几个方面:(1)针对现有利用过滤技术的正则表达式匹配方法过滤能力不高的问题,提出了反向因子的过滤技术。通过分析反向因子与正向因子的相互作用关系,设计了利用反向因子与正向因子的过滤算法。为了利用位并行技术来提升过滤算法的效率,提出了基于位向量的索引结构BITINDEX,并设计了相应的位并行算法。本文分析了不同反向因子对于过滤能力与查询效率的影响。为了求取一组高质量的反向因子,提出了核心反向因子的概念,并设计了多种高效的算法来求取正则表达式查询的核心反向因子。本文还分析了不同的匹配方法对于验证阶段性能的影响,提出了优化技术来自适应的选择正则表达式的匹配方向。(2)针对基于过滤技术的正则表达式匹配方法对于复杂查询匹配效率不高的问题,提出了利用q-gram技术的正则表达式匹配方法。该方法可以通过q-gram倒排索引直接找到所有的匹配结果,从而避免了在原数据文件上的扫描验证。因此,该方法另一个优势在于可以直接被集成到现有的基于q-gram倒排索引的应用中,而不需要对数据集建立新的索引。本文提出了一种q-gram驱动的非确定有限状态自动机(GNFA)来表示一个正则表达式的语义,并且分析了一个正则表达式匹配结果在GNFA上所需满足的q-grams的匹配位置约束。设计了基于GNFA的匹配算法,与传统的使用自动机进行验证的方法不同,该算法通过GNFA查找倒排索引中满足位置约束的q-grams位置来找到所有正则表达式匹配结果。通过考虑q-grams在本文上的选择度的差异,进一步地提出了利用查询计划树的匹配算法,通过优化位置约束的检查顺序来提高算法的匹配性能。(3)分析了现有支持近似子序列匹配的方法特点,针对现有方法的过滤技术会产生出过多的候选位置与生成大量冗余的签名子序列的问题,提出了一种利用混合签名的过滤技术。该技术可以使得签名包含不同数目的子序列,从而避免生成大量的冗余签名。进一步地深入分析了利用混合签名产生候选位置的代价,设计了一个代价-收益模型来生成高质量的混合签名,从而均衡产生候选位置的代价与验证它们的代价。此外,还提出了一种自适应的算法来利用混合签名产生候选位置,并给出了进一步的优化技术来提高产生候选位置的效率。综上,本文针对正则表达式匹配与近似子序列匹配这两种复杂模式匹配问题,提出了新的过滤技术来提高匹配效率,并设计了高效的基于索引结构的匹配方法与优化技术。通过在多组真实数据集上进行的实验验证,本文提出的方法比目前最先进的方法具有更高的匹配效率。
其他文献
随着汽车行业对先进高强钢性能要求的提高,加快高性能汽车用钢的研发和实现其工业化应用对汽车行业具有重要的意义。中锰钢作为新三代先进汽车用钢的典型代表,其抗拉强度大于1000 MPa时,延伸率仍可达30%,且其生产和合金成本相对较低,越来越得到人们的青睐。目前中锰钢的制备工艺主要为热轧、冷轧和临界热处理,其微观组织主要以“多尺度、超细、复相”为典型特征。中锰钢优异的综合力学性能主要依靠超细/纳米尺寸多
权力的优化配置是高校管理工作的重点,对于大学的职能发挥和健康发展具有重要的价值;校院两级管理是目前高校普遍的、成熟的内部管理体制。学院是高校的“经济基础”,是大学功能发挥的主阵地。因此,学院制改革已成为我国高校内部组织结构调整和内部管理体制改革的重要举措。我国新时代高等教育的可持续发展在客观上要求进一步改革高校内部管理体制,建立和完善具有中国特色的现代大学制度,改革和完善高校内部治理结构,合理配置
近年来随着对车身轻量化和安全性要求不断提高,热冲压钢作为车身关键零部件的使用越来越广泛。最近成功研发的一种新型热冲压成形用钢(Advanced Hot Forming Steel,简称 AHF 钢),其强塑积超过 20GPa%,使零部件可采用更薄的板材成形,并可使用现有热冲压工艺和设备进行生产。目前,电阻点焊约占汽车白车身装配90%工作量,仍然是白车身装配的主要连接工艺。但该新型热冲压用钢的焊接性
切换系统是由多个模态和切换律组成的复杂的动态系统。切换律决定子模态的激活时刻,也直接影响着切换系统的动态。因为在工程应用和理论分析上的重要性,切换系统已经成为控制领域研究的一个热点,受到众多学者的关注。然而,因为连续动态和离散动态的相互作用,使得切换系统的研究相比一般非切换系统的研究更加复杂,仍有大量的分析和综合问题亟待解决。特别是,无源性作为重要的系统特性,已经广泛地应用于非线性系统的分析和控制
随着光学技术的不断发展,要求光学元件具有高的折射率(nd≥2.1)、高的透过率(在紫外到可见光范围内大于70%)、小型化和多功能化。传统氧化物非晶含有SiO2、B2O3、P2O5等网络形成体,直接影响玻璃的折射率等光学性能,此外,加入Pb、Bi、Sb或Te等重金属元素时,会明显降低所制备透明材料在可见光部分的透过率,限制材料的发展与应用。由于不含网络形成体和重金属元素的非晶态材料对制备技术有极高的
随着经济的快速发展,服务业已成为带动和支撑经济增长的核心力量。服务企业为了创造更高的顾客体验和企业绩效,更加关注传递服务的载体——员工的情绪和行为。目前研究者针对员工情绪和行为的研究,主要聚焦于情绪劳动和组织公民行为方面,虽然对于二者之间的关系的研究取得了一定的进展,但已有研究存在局限与不足,主要体现在两个方面:其一,情绪劳动和组织公民行为理论研究主要聚焦西方文化情境。在情绪劳动和组织公民行为各自
Al2O3基复合材料以其硬度高、耐腐蚀、绝缘性好、高温稳定性好、密度低等特点被广泛应用于陶瓷刀具、电路基板、装甲防护等领域。然而其灾难性的脆性断裂是巨大隐患。为提高Al2O3基复合材料的韧性和可靠性,本文分别制备了颗粒弥散分布、层状、三维连通Al2O3基复合材料,研究了制备工艺对复合材料组织和性能的影响,分析了不同结构复合材料的强韧化机理,为高性能陶瓷结构的精密设计提供依据。本文利用XRD、SEM
有效的人力资源管理是提高企业核心竞争力的重要途径。人力资源优化调度问题是人力资源管理中一类重要问题。面对日渐增高的人力资源成本,企业管理者需要谨慎派遣员工高质量、高效率、及时地完成规划期内任务,并使得预期收益最大化或作业成本最小化。理论上,人力资源优化调度问题多属NP-hard问题。其涵盖范畴较广、模型丰富,已经成为经典的组合优化问题,如指派问题、排班问题、维修员调度问题等。因此,研究人力资源优化
基于相位移动深度感知是指利用相位编码获取高精度和高分辨率的深度信息。广泛应用于工业生产制造、文物保护、生物医疗、传媒艺术和国防安全等领域。在相位移动深度感知中,感知精度受限于相位展开的快速性、准确性和鲁棒性。相位展开的目的是消除相位的周期性混叠,在整个图像上实现相位的一致性分布。由于场景光照复杂,目标表面颜色干扰等因素,高精度相位展开仍存在许多技术难点。本文在分析和总结国内外相关研究成果的基础上,
二氧化碳是对全球气候变暖占主要影响的温室气体,其在工业生产中的排放量和大气中的浓度逐年增加。为了应对气候恶化和环境危机,以及迎接碳减排的挑战,对CO2捕集技术的研究显得尤为紧迫。利用固体吸附剂在燃烧后捕集工业烟气中的CO2是一种适用广泛的技术路径,并且由于其系统简单而可以被快捷地部署到现有系统中。本文利用稻壳灰作为廉价原材料制备了各种沸石类吸附剂,并从制备方法、表征分析、气体吸附和理论计算等方面研