内存数据库中集合相似度及集合包含问题的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:cj258399542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集合查询和集合连接是当前研究的热点,可分为集合包含(查询或连接)和集合相似度(查询或连接)两个部分,在数据库、数据挖掘、信息检索、生物信息系统等很多相关领域有重要的研究价值和应用前景。索引对提高集合查询和连接的效率至关重要。研究者提出了多种支持集合值的索引结构,并在此基础上设计了相应的查询或连接算法,但这些索引结构和算法存在着诸如只支持部分谓词或只在部分谓词上高效,又或支持多种谓词但效率较低等不足之处。本文主要解决在内存数据库中的集合值查询和连接问题,在相关研究的基础上,本文主要做了以下工作:1.对相关研究工作进行了综述,对相关支持集合值查询和连接的索引和算法进行分析比较,指出其优势和不足之处。针对多数索引只关注其中集合包含和集合相似度的某一方面或某一方面的少数几种谓词的问题,从统一的架构下给出了集合查询和集合连接的定义,并在统一的结构下给出了支持所有查询谓词的实现。2.提出一种基于trie的ETI结构,ETI对trie节点进行扩展,使之便于处理T-覆盖查询。在ETI基础上,通过将T-覆盖查询问题转化为在ETI上查找查询深度为T的节点,实现了高效的解决T-覆盖查询的T-Similarity算法。通过下面三个步骤解决扩展到其它多种相似性谓词的任务:1)将相似性阈值τ映射为T-覆盖阈值。2)在T-Similarity基础上实现T-SimilarityExact算法以计算精确覆盖值。3)验证候选记录。提出了记录序的概念并研究了不同记录序对ETI和T-Similarity算法的影响。通过扩展实验从多个方面验证了ETI结构和相关算法的有效性。3.为在统一架构下实现集合包含查询和相似度查询问题,对ETI结构进行简单扩展,将ETI节点中的节点反向列表域分成终结于该节点的节点反向列表(ENIL)和非终结于本节点的节点反向列表(NNIL)两部分。通过后缀过滤技术和值判定技术来加速子集查询的效率。对等值查询,进一步提出空ENIL判定技术、单路径过滤技术和值不等判定技术来实现高效的等值查询。通过自根向下的遍历,实现高效的超集查询。最后,对基于ETI的集合包含查询和基于反向索引的算法进行了对比。4.针对传统基于反向索引的集合T-覆盖连接采用生成——测试的框架,需生成大量候选集进行验证,从而导致性能降低的问题,提出一种动态的索引结构DTI,并在DTI上设计高效的T-覆盖连接算法Dtrie-allpair算法。Dtrie-allpair算法采用长度过滤,可过滤势小于T而无需索引的记录。对长度大于等于T的记录,先在DTI中查询、后索引该记录,从而可保证对一个相似对,只生成一个结果。在元素序的基础上,进一步提出记录序和组合序,研究了各种数据库序对连接效率的影响。Dtrie-allpair算法无需生成候选集直接生成最终结果,实验验证了其相对Allpair算法和PPJoin算法具有明显的优势。5.针对基于CPU的反向索引算法在处理T-覆盖查询时效率较低,且各算法只在特定阈值范围内高效的问题,研究基于GPU的T-覆盖的高效实现。在将ScanCount算法作为底层算法的基础上,根据查询并行还是串行处理,提出两种串行算法(GS-Serial和GS-Serial-Atomic)和一种并行分组算法(GS-Parallel-Group)。为解决大量查询导致GPU空间开销较大的问题,GS-Parallel-Group对查询进行分组,从而在保持合理内存开销的同时,使系统具有近似最优的性能。通过设计的高效的GPU原语,解决了在GPU中直接获取查询结果的问题。实验验证了算法的效率和合理分组大小的设定。6.针对基于CPU的反向索引在实现集合包含查询时需进行大量与结果无关的元素对比而导致效率低下的问题,采用GPU来实现高效的集合包含查询。对子集和等值查询,采用面向元素的、单kernel的列表交集算法,并通过设计高效的GPU原语在GPU中直接获取查询的结果,从而降低了在GPU和CPU之间传送数据的开销。对超集查询,通过对GS-Parallel-Group算法进行简单修改而实现。扩展实验表明,基于GPU的算法相对CPU的版本具有较高的加速比。
其他文献
<正> 搅刀是混凝土成型挤压机的主要部件。提高其使用寿命一直是建筑行业的一个难题,目前搅刀的使用寿命在120~160h左右,要提高搅刀的使用寿命关键是提高搅刀螺旋面的耐磨性。
计算机自产生以来,已经成为人们用来解决各种各样可计算问题的一个重要的工具。对于复杂类问题,随着问题规模的扩大,运算所需要的空间和时间都将急剧增长,电子计算机硬件设备的物
目地:观察心先安治疗冠心病舒张功能不全的疗效。方法:65例确诊冠心病左室舒张功能不全患者,随机分成二组,对照组30例采用肠溶阿司匹林100mg/d,消心痛10mg/次,3次/d,辛伐他汀10
<正> 在北美洲加拿大的北极福克斯湾海域见到一种形似海豹的大型海兽——海象。海象体态笨重(平均重907千克)、头圆、眼小、无外耳。鼻口部短宽,有较硬的羽形须。两性都有獠
教研员是区域教育教学改革的重要实践者与研究者,在区域信息化教学推进过程中,教研员引领区域变革的价值应得到重视。研究在归纳分析教研员工作职能及能力要素的基础上,基于
<正> 在人们熟知的压实土壤和沥青路面的静碾压路机和振动压实机械领域里,又出现了两个各具特色的、同样很有前途的新产品,一是由澳大利亚制造的新型多棱辊拖式压路机;二是利
<正> 我们都见过儿童和幼儿表情痛苦地拼死拒绝食用蔬菜的情景。在我们看来相当可口的蔬菜,而对于他们,却似乎是毛虫般令人厌恶的东西。惟一能够骗过他们的做法,似乎只有把蔬
针对电子商务人才培养中的问题进行分析,并对当前职业院校中电子商务专业方向的人才培养提出看法。
癌症严重威胁着人类的健康,其成功治愈依赖于病变的早期发现与治疗。超声成像以其无创、经济、便捷、无辐射等特点,已经成为浅表器官病变早期检测的首选方式。但是对超声图像的