大规模字符串近似查询批处理算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zezongji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串具有多元化的意义,是计算机领域中重要的研究对象。字符串查询在数据分析、生物序列分析等很多领域有着广泛的应用,然而很多因素导致字符串精确查询面临很大困难甚至不可行。例如由于信息因素、技术因素、流程因素和管理因素等多方面的原因造成数据质量问题,给字符串查询处理带来很多困难,因此需要对字符串进行近似查询。字符串近似查询指的是,在一个字符串数据集中,通过一些字符串相似性函数,寻找与待查询字符串满足相似性条件的字符串集合。近年来,研究人员提出了一些基于q-gram模型和倒排索引的方法来解决字符串近似查询问题。目前字符串近似查询都只针对单个字符串的查询,缺少字符串近似查询批处理方法。批处理可以提高字符串查询效率、提高资源利用效率,因此本文将重点研究字符串近似查询的批处理算法。首先将字符串分割成q-gram集合,为gram建立倒排索引,并在内存中建立Trie树对gram进行管理。采用倒排表组织字符串和gram集合,可以相对减少查询的磁盘随机检索代价,使用Trie树方便了在查询时检索gram对应的倒排表。对于近似查询,本文主要基于过滤-验证框架,通过读取相关倒排表得到候选集合,并利用长度、位置信息增强过滤效果,减少验证代价,最后对候选集合进行验证是否满足相似条件约束。本文建立非对称gram选择代价模型,基于多个查询之间共享部分倒排表的策略,设计了字符串近似查询批处理算法来减少查询代价,并从平均查询时间、平均等待时间、读取倒排表个数等多个维度验证算法的有效性。目前字符串近似查询算法假设候选集合可以完全加载到内存中,没有考虑内存限制的情况。设计内存受限情况下的处理框架有利于在字符串查询任务中减少对内存的消耗,因此本文对内存约束下的字符串近似查询批处理进行了研究。在内存受限情况下,需要对字符串近似查询分批次处理。通过对待查询字符串进行聚类,增加同批次待查询字符串拥有相同gram的概率,进而减少读取倒排表的个数。然后建立字符串查询调度的代价模型,利用动态规划算法进行求解,提出在内存受限情况下的字符串近似查询批处理算法,并保证在查询过程中不会超过内存的约束。最后从平均查询时间等多个性能指标考察了算法的有效性以及内存受限程度等实验参数对性能的影响。
其他文献
图像分割在计算机视觉系统中占有非常关键的地位,被广泛应用于医学分析、交通控制、机器学习、人脸识别等诸多领域。相比于传统分割算法,近几年提出了层次分割算法给图像处理和应用带来了更优的效果。通常情况下,每个图像都有自己的最优参数集,一个固定的参数设置可能会导致不满意的分割。为了给目标检测任务提供高水平的分割结果,本文对层次图像分割的层次选择技术和目标分割算法进行了研究,利用层次图像分割结果中隐含的区域
大众体育有“第二奥林匹克运动”的美誉,一个国家的兴盛强大和人民的健康福祉离不开它。国务院在2014年10月2日颁布了《关于加快发展体育产业促进体育消费的若干意见》,明确
随着“大数据”时代的到来,互联网上积累了非常庞大的数据。现今在很多互联网服务中,从海量候选商品中精确地推荐用户感兴趣的商品作为一个至关重要的任务引起了专家学者的广
并购是上市公司扩大市场占有率、提高市场竞争力和进入其他行业领域的重要手段,近年来我国资本市场的发展也促使了并购市场的快速增长,从2013年以来我国上市公司并购的数量达到了一个新的高度,且往后几年一直保持较高的数值。而在上市公司并购的过程中,由于标的公司的种种特性,会出现并购方以高于标的公司账面价值数倍的对价收购对方的现象,这种现象便是高溢价并购。在高溢价并购的背后往往也存在着标的资产股东做出的高业
地名是汉语中一类特殊的词汇系统,其作用是将各个地理区域划分开。它是人类社会历史发展的产物,并且随着时代的发展,地名本身的文化负载意义也不断地扩充。作为一种特殊的文化现象,它有着丰富的语言、历史、地理、民族、社会等学科内涵。本文以徽州地区的行政地名作为研究对象,数据来源自国家统计局官网2019年统计用区划和城乡划分代码地名数据,对古徽州地区现存的一市六县,共1169个行政地名统计分析,归纳其主要特点
我国电网中基本已经全部装设了广域测量系统(WAMS),该系统具有采集整个电网每个站点实时数据的能力,采集的数据包括幅值、相角、时标等等,广域测量数据(WAMS数据)具备时间同步性和高精准度的特点。基于广域测量系统对长输电线路进行参数辨识及电压稳定指标研究,可为长输电线路提供安全运行信息,同时对电网的安全运行和为电网的调度运行提供辅助决策具有重要意义。基于此,本文主要研究内容如下:首先,针对长输电线
近几十年来,语言学研究者们对研究论文的体裁分析进行了大量研究和深入讨论。但是,随着新学科的出现或多学科间的相互融合,学术研究面临新的语境,新的研究论文随之产出。我们
随着物联网和信息技术的快速发展,信息化已经成为制造业企业提升竞争力的重要途径。车间是制造业企业内部的一级生产管理组织,车间信息化是实现企业整体信息化的基石。在制造过程中,原材料、在制品、成品等在车间内部的实体流动,我们一般称为生产物流。由于制造业的工艺路线灵活多变、生产流程复杂,所以如何通过信息化技术有效、准确地对车间生产物流过程进行管控成为研究重点。本文针对四川省某制造企业的实际需求,设计和实现
《普通高中生物课程标准(2017版)》(下文简称新课标)明确了生命观念、科学思维、科学探究和社会责任的生物核心素养。其中生命观念是生物学科特有的标志和关键,其贯穿高中生物课程,并在必修模块《分子与细胞》集中体现。学习进阶是学生在同一主题概念是所遵循的连贯的、典型的学习路径的描述,呈现为围绕核心概念展开的一系列由简单到复杂、相互关联的概念序列。本研究以人民教育出版社出版的高中生物学教材必修一《分子与
非遗技艺作为我国非物质文化遗产的重要组成部分,有着鲜明的民族特色和深厚的文化底蕴。长久以来,非遗技艺主要依托家族内部或师徒间的言传身教得以留传,但如今却面临着几近失传的危机。近年来,以保护和抢救非遗技艺为主要目地的非遗技艺题材纪录片不断涌现。它们以其特有的叙事策略,通过讲述传承人身上的故事,在展现非遗技艺魅力的同时,将非遗文化的精神内核传递给观众,以达情感共鸣,从而唤起全社会的关注。本文以毕业作品