基于Simhash的海量相似文档快速搜索优化方法

来源 :指挥信息系统与技术 | 被引量 : 0次 | 上传用户:pw1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并通过指纹分段建立索引提高计算效率。针对传统方法在指纹分段过程中大量冗余计算影响到计算效率的问题,提出了基于顺序匹配的候选集筛选方法,以减少指纹相似性计算量和网络带宽消耗,实现快速搜索。试验表明,该方法具有较好的性能和可扩展性。
其他文献
前四史中,《史记》的虚词使用最为出色,也最为引人注目。从最初的“三家注”本开始,《史记》的虚词就受到人们的关注。但直到南宋时期的洪迈,才开始留意《史记》虚词的使用与
分析了有人机/无人机协同作战研究情况,给出了有人机/无人机协同作战系统的基本组成和体系结构,分析了有人机/无人机协同作战的关键技术,提出了美军有人机/无人机协同作战技
协同办公系统(OA)是一个将现代办公思想和计算机、网络、通讯等现代化工具集成在一起的办公应用产品。在应用中能规范工作流程,快速有效地处理公司内部的办公业务。使办公室
张继刚作为我国优秀的舞蹈创作家,由于其对艺术事业的由衷热爱以及不懈的坚持,他是我国著名的舞蹈编导,也是我国舞蹈届唯一获得“世纪之星”殊荣的编导。截至目前,他所创作出来的
糖尿病肾病(diabetic nephropathy, DN)是糖尿病(diabetes mellitus,DM)主要微血管并发症之一,是导致欧美国家患者终末期肾病重要病因,其治疗难度大。目前针对DN发病机制的系列
采用多相流瞬态模拟软件OLGA,对JZ25-1S油田的WHPB平台至CEP平台油气混输管道进行了清管过程模拟分析,模拟得到了清管球在管道内的运行位置及速度。通过模拟分析清管过程中,
目的:报告以肾脏表现为首发症状的Fabry病的临床病理表现、诊断、鉴别诊断并文献复习。方法:病人资料31岁男性患者,以蛋白尿、水肿等肾脏表现为首发症状,伴有肢端感觉障碍、
目前我国的集团企业财务管理与国外先进企业相比,仍然存在着一定的差距,这种差距在财务管理上具体表现在多个方面:融资成本高,资金使用效率低,财务管理信息滞后,财务监管薄弱
本文简要梳理了“基因治疗”的概念史 ,在分析了美国联邦食品与药品管理局给出的定义后 ,作者认为广义的“基因治疗”的实质是一种以“预防”和“治疗”为目的的人类基因转移
介绍了MODIS数据晴空和薄云下水体的有效识别算法——CH2/CH1比值方案,并应用于2007年淮河流域大洪水事件,选取泄洪前、泄洪期和退水期3时相的MODIS数据进行水体识别分析,有