面向海量数据的字符串相似度查询关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:youhayou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、通信等信息技术的飞速发展,全球数据正在以前所未有的速度积累,如何从这些海量数据中挖掘有价值的信息已成为学术界和工业界关注的焦点。数据规模的快速增长伴随着一个重要问题,即规模庞大及来源广泛导致数据质量无法得到有力的保障,数据质量的参差不齐给存储和查询处理带来了严峻的挑战。传统基于精确匹配的查询处理技术已难以应对数据质量下降以及应用需求提高的难题。基于相似度的查询处理是提供近似对象查询和提升数据质量的重要方法,研究者们已经在该领域开展了大量的研究工作,其中基于字符串相似度查询处理的研究具有最广泛的应用需求。  鉴于已有字符串相似度查询领域的研究工作主要是针对静态数据集展开的,本文首先从方法论角度总结了该领域的研究进展,从理论和实验的角度分析和对比了主流方法的优缺点。在充分调研和深入分析的基础上,针对已有面向静态数据集的基于删除邻居查询方法存在的不足提出了改进的方法,然后针对海量数据的不同查询处理场景,展开了面向数据流环境和面向分布式查询环境的字符串相似度查询关键技术研究,从时间和空间效率的角度提高了查询处理的性能。本文的主要贡献和创新性工作如下:  1.提出了一种基于删除邻居Trie的字符串相似度查询处理方法。  基于删除邻居的字符串相似度查询方法,其本质是通过字符删除操作将字符串相似度查询问题规约为删除邻居族间的字符串精确匹配问题,是一种以空间换取时间的查询方法。由于删除邻居具有空间复杂度高的缺点,导致索引空间开销很大,难以在实际中应用。针对已有方法的不足,本文提出了基于删除邻居Trie的字符串相似度查询方法DNT-SQ,以编辑距离为度量,有效地融合了删除邻居特征选择度高及Trie共享前缀的优点,并通过索引划分和合并子树的压缩策略进一步降低索引开销,采用位向量删除表降低了验证阶段的时间开销。实验结果表明,与基于删除邻居的最新方法NGPP和SufDN相比,DNT-SQ在有效降低索引空间开销的同时,提升了50%以上的查询处理性能;与算法TrieJoin相比,当阈值大于2时,DNT-SQ将查询处理性能提升了约80%。  2.提出了一种基于滑动窗口的数据流字符串相似度查询处理方法。  数据流是海量数据一种动态存在形式,已有面向数据流的关键字查询处理技术大都是基于精确匹配的,数据流字符串相似度查询处理具有重要的研究价值。本文提出了基于滑动窗口的字符串相似度查询处理方法AS3,该算法基于过滤-验证的框架,以编辑距离为度量,基于基本窗口的滑动窗口更新机制,应用改进的非对称特征提取策略,提出了预剪裁过滤PPF、流统计过滤CFS以及基于坐标的编辑距离验证算法CV,有效解决了数据流字符串相似度查询处理的问题。实验结果表明,与将已有面向静态数据的方法直接用于数据流相比,AS3在有效支持滑动窗口索引实时更新的同时,降低了索引创建时间和空间开销,将查询处理性能提升了约45%;将AS3用于数据流字符串相似度连接查询处理,该方法比在数据流上直接计算相似度连接的方法更加高效。  3.提出了一种基于MapReduce和关键位置过滤规则的海量字符串相似度查询处理方法。  海量数据上的字符串相似度查询处理需要分布式计算框架的支持,基于MapReduce并行计算引擎研究海量字符串相似度查询处理是一种可行的技术路线。已有基于MapReduce框架的字符串相似度查询方法主要是将字符串相似度查询的单机算法在MapReduce框架下的实现,但现有方法未考虑到Map和Reduce任务间因数据复制引起的I/O开销,大大降低了的查询处理性能。针对这个问题,本文提出了基于MapReduce和关键位置过滤的字符串相似度连接的查询处理方法MRVSJ。该方法基于过滤-验证的框架,以集合相似度作为度量,通过提取分词将字符串文本映射为向量,从而将字符串相似度连接问题转换为向量相似度连接问题;通过向量归一化,提出了基于关键位置划分的过滤算法,然后以该过滤算法为核心,在MapReduce框架中进行了实现。MRVSJ分为两个阶段,过滤阶段通过MapReduce任务实现基于关键位置划分的过滤功能并生成候选集,验证阶段通过MapReduce任务对候选集进行验证。实验结果表明,与已有最新方法V-SMART-JOIN和BJOIN相比,MRVSJ提升了约30%的查询处理性能。
其他文献
访问控制是保护数据机密性和数据完整性的一种机制,随着信息技术的发展,越来越多的企业把保护信息资产的机密性和完整性作为一项重要的工作来抓。访问控制技术的研究由来已久,人
学位
经过三十多年的快速发展和广泛应用,Internet已从传统的简单信息交换网络成长为一种新型的复杂资源共享集成平台。而服务计算以软件服务的形式封装资源,以服务协同来实现资源集
中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。中间件作为一
随着互联网技术的发展和广泛应用,流动数据管理在各种应用系统中变得越来越重要.和传统的数据库管理系统不同,数据流管理系统以查询为中心,系统中预先注册有成千上万个持续查
自1999年J2EE的第一个版本推出以来,J2EE应用服务器一直是企业级计算的首选平台之一,而EJB则是J2EE的一个核心部分。J2EE/EJB的关注点一直是创建专注业务逻辑的可复用的分布式
学位
图灵机模型假设输入信息已经位于机器纸带之上,可以被转移函数直接获取;然而对于三元计算,信息不仅仅存在于数字空间,还广泛存在于物理世界和人类社会。因此,三元计算的一个重要
语音识别技术经过几十年的艰苦探索和研究,已经获得了极大的发展,并开始逐步应用于日常生活中。但语音识别技术中存在的一些问题,特别是儿童语音识别,成为阻碍该技术进一步推广的
大规模的双语句子对齐语料库及双语词典等数据资源是构建高质量统计机器翻译系统的重要数据基础.本文提出了若干统计机器翻译预处理中数据资源的使用策略,目的在于尽可能地挖
无线传感器网络集成了计算能力、无线传输能力以及对物理世界的感知能力,具有广泛的应用范畴。在大规模的周期性数据收集型传感器网络中,如何高效的利用传感器节点的能量、保证
学位