基于动态索引和虚拟多重字符过滤的新型字符串相似性连接分布式算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sunjiajun75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串相似性连接就是可以在单个或多个字符串样本数据集中,找出位于数据集中的所有相似字符串对。随着互联网信息系统和人工智能系统的不断发展,字符串相似性连接在很多应用中具有广泛的使用场景,例如网页相似性检索、数据融合、生物信息学、模糊字符串匹配等,是最近几年备受关注的科研方向之一。并且,越来越多的互联网企业都把字符串相似性连接作为未来人工智能发展的基础建设。但是,大数据时代的到来,海量字符串数据日益普遍,现有的字符串相似性连接算法在处理海量数据集时并不高效,主要有如下限制:(1)现有的算法均在将海量数据存储在磁盘中,然后在计算相似性的时候导入内存。然而这些算法都会在内存中产生大量的倒转索引,大量冗余索引将大大超过单台机器节点的内存限制。(2)现有的算法使用的过滤机制并不高效,产生的候选集中仍然包含大量的不相似子集,后续的数据验证环节就需要消耗更多的时间去验证数据。(3)现有的算法都是基于单台机器节点使用,然而单机器节点的内存往往是受限的,不易扩容,已经难以应付海量的数据集。本文在传统字符串相似性连接算法的基础上提出了一种新型的基于动态索引和虚拟多重字符过滤的分布式算法——DV-Join。新的算法能够解决传统算法的历史遗留问题。本文主要在以下几个方面有了重大突破:(1)该算法引入动态索引,在计算相似性的过程中动态调整已经产生的倒转索引,能够大大减少倒转索引的内存消耗。(2)在原有的过滤机制上添加了虚拟多重字符过滤算法,能进一步过滤候选对集合中非相似子集的数量,节省候选集验证时间。(3)使用开源的集群分布式系统Spark,在集群中并行执行对海量数据的处理计算任务,大大减少计算时间。在经过了大量的实验后,能够得到以下结论:DV-Join算法在处理海量数据集时,比已有的传统字符串相似性连接算法更有效率。
其他文献
本研究对北京市606名高血压患者进行调查,以了解患者用药依从性与社会支持的相关关系,为更好的防治高血压提供方法和依据。研究结果显示:①患者的用药依从性较低,完全依从者仅占5
主要技术规范由于便携式音频系统经常应用在噪声大的环境中,因此为保证使用者能够收听到音频信号,必须要有足够的输出功率.对于工作电压低于3V的放大器而言,由于很难产生足够
社区心理健康服务是运用心理健康的理论和技术在社区服务中进行干预,是预防心理疾病,维持和促进心理健康的过程。本文通过文献法,综述了老年人常见的心理问题主要为孤独、焦
陶寺村位于山西省襄汾县城东北约 7 公里处,隶属于陶寺镇,在塔儿山以西。陶寺北两周墓地位于陶寺村北约 800 米处,因近年盗墓被发现。2014年6月下旬,受山西省文物局委托,山西省考
报纸
目的研究压力蒸汽灭菌包装中心蒸汽饱和度的测量方法。方法采用无线温度与压力记录器测量压力蒸汽灭菌包装中心的温度和舱室蒸汽压力,通过查表和计算得出灭菌包装中心的蒸汽饱
肿瘤坏死因子相关凋亡诱导配体(TRAIL)能选择性诱导肿瘤细胞凋亡,且对机体正常组织细胞无毒副作用,被认为是一种非常有潜力的抗癌药物。我们简要介绍TRAIL及其配体诱导细胞凋亡
给出了一种利用卡尔曼滤波的短时突发MSK前向定时估计算法。首先介绍了M.Moreli及U.Mengali的MSK前向定时估计算法,并针对算法在处理短时突发MSK定时估计性能下降的问题,提出了一
当前新型冠状病毒引发的肺炎疫情汹涌而来,让人猝不及防。面对充满风险和考验的疫情挑战,政府采购如何圆满完成应急救援设备物资及时供应的保障任务、如何为支持打赢疫情阻击战
报纸
为了提高无人机UAV(Unmanned Aerial Vehicle)的性能,大量的复合材料被应用到了其结构设计中。复合材料机翼结构作为无人机的主承力结构,其轻量化设计是整个无人机结构设计中的难点。本文根据已有机翼结构的气动外形和设计指标,对机翼结构进行了初步设计和优化。由于涉及到的优化参数过多,本文采用分级优化的研究方法,对无人机机翼的结构尺寸以及复合材料铺层进行逐步优化。在机翼结构尺寸优化过程
针对现有窄间隙熔化极气体保护电弧焊方法存在导电嘴磨损大、空间位置焊缝成形难、环境适应性差等问题,本研究以摇动电弧窄间隙焊接方法为研究对象,在研制摇动电弧窄间隙焊炬