基于索引的内存相似性连接算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:d250028908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的相似性连接算法中,精确计算和分区阶段互相独立,精确计算时需要对每个分区中的所有数据进行两两比较,计算量较大。针对该问题,设计一种新的内存索引——距离树,并在其基础上提出两结构内存相似性连接算法。根据数据的潜在分布将其分发到不同的分区中,保证具有一定相似度的数据对分配在同个或相邻的分区内,同时通过树节点之间的位置信息保存分区阶段的计算结果,使精确计算阶段仅需对每个分区中相邻的叶节点数据进行比较计算。实验结果表明,与TOUCH算法相比,基于距离树的算法可使运行速度提高2倍~3倍,并具有更好的可扩展性。
其他文献
当地时间8月16日,莫斯科举办“果酱节”系列庆祝活动,吸引了150多万人参与。据不完全统计,自8月8日果酱节开幕以来,共有480多万罐果酱售罄。
在当今浮躁的社会环境下,专注是不是已经沦为老套的说教?面对着日常工作的平淡、重复、沉重、束缚以及时时袭来的倦怠感,倡导教师们专注,是不是显得不切实际?专注意味着认真、勤劳
2011年研究了在密集式烤房条件下采用121烘烤工艺对K326烟叶主要化学成分的影响,结果表明:烘烤48h,下部叶叶绿素降解率达80.45%,烘烤66h,中部叶叶绿素降解率达79.6%,烘烤54h,上部叶叶绿
“大伙加把劲啊,咱们年轻人可不能落后老同志啊,今天储煤场洗车池硬化工程一定要完工……”面对当前严峻形势,连日来,河南能源新安煤矿机关科室党员干部和青年志愿者们分批分次利
“读书学习客观上是一个去粗取精、去伪存真的过程,必须联系实际,知行合一,通过理论的指导、利用知识的积累,来洞察客观事物发展的规律。”这是总书记对学习的论述,也是对马克思主
豫农416是以豫麦49为母本、(豫麦21×豫麦35)F,为父本进行有性杂交,采用系谱法选育而成。2年区试平均产量为7846.5和7987.5kg/hm2,分别较对照豫麦49和周麦18增产5.96%和3.19%;生产试验
目前BWDSP104X编译器的编程模型支持以字为单位的寻址方式,不支持非32位宽数据并且不兼容以字节为单位的寻址模式。通过对BWDSP104X前端相关数据类型进行修改,产生基于字节寻
那是危机时支援的盘缠寒风中送来的暖衣相互间传情的鸿雁新时期续写的诗篇难忘课堂上朗朗的书声操场上纯真的笑容攻难题动情的喜悦毕业季含泪的饯行
连日来,河南省正阳县电业局组织人员,深入袁寨乡部分乡村宣传电力设施保护法规,对线路下各类违章行为进行排查,源头整治,为全县安全供用电打下坚实基层。
1978年8月28日,我刚上班,就被时任团省委组织部部长马大政叫到他的办公室,直截了当地对我说,团省委书记刘玉洁委托他给我谈话,让我筹备《河南青年》杂志的复刊工作。对于组织上这