基于连接位MinwiseHash的三者相似性估计算法

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户:chaocui41
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算相似性是信息检索的一个核心基础问题,二者、三者甚至更多集合的相似性估计在相似文档检测、词语相关性、聚类、数据清理等领域有着广泛的应用.连接位Minwise Hash算法作为一种高效、准确的相似性估计算法,能够成倍地减少比对的次数,提升算法性能.通过理论推导,给出基于连接位Minwise Hash的三者相似度无偏估计公式.实验结果显示,在样本大小k=500、相似度阈值R0=0.8时,算法的准确率和召回率均能达到95%以上,并且所需的CPU运行时间仅为b位Minwise Hash三者估计算法的50%.
其他文献
小湾水电站是澜沧江中下游河段梯级开发的“龙头”水库,大坝为292 m高的双曲拱坝,坝址具备修建高拱坝的优越地形条件,但地质条件较为复杂。针对小湾拱坝1210 m高程坝肩的地形地质条件,对坝肩未进行加固处理方案,采用地质力学模型试验方法,抓住影响坝肩稳定的主要因素,利用超载法进行破坏试验研究,分析坝体及坝肩变形分布特征,探讨坝肩失稳的破坏过程、破坏形态和破坏机理,确定坝肩超载稳定安全度。
在明确边坡稳定性取决于边坡自身的结构特性、水、振动、人类活动、气候条件、风化及植被等内外因素综合作用的前提下,对边坡的稳定分析方法从定性到定量的发展过程进行了分
对广告影响随机需求且带有二次订货机会的两级供应链,比较了集中决策与分散决策系统下供应链成员的最优策略.研究表明:在分散决策供应链中,单一的广告补贴机制难以实现供应链的完
【正】 在刚刚打开包装这款刻录机的包装时,使我们感到有似曾相识的感觉,不难发现,其前面板的设计与那款紫光的思多24倍速刻录机十分相像,从拖盘的翻盖、耳机插孔、音量旋钮
在分析拖轮调度问题基本性质的基础上,结合多处理器任务调度理论,构建了以拖轮总作业时间最小化为目标函数、考虑多停泊基地条件下的一体化调度优化模型;针对问题特点设计了
【正】 Intel的i845D芯片组的推出犹如一颗光彩夺目的明星,为用户搭建高性价比P4系统铺平了道路,但价位一直居高不下。近期,深圳共进电子有限公司推出了他们最新的采用i845D
在电力变压器差动保护中,励磁涌流与内部故障电流的判别一直是一个关键问题。围绕这一主题,国内外先后提出了许多方法。但仍不能很好地满足当前电力变压器保护的需求——可靠(不
元素语义的顺利表达是创意设计成功完成的基础条件,其中,创意设计的元素必须要具有明确的指涉功能以及丰富的设计内涵,能够在设计者与受众之间产生一种映射,使得受众们能够在感受
面向基于Rankine源的3维面元法,提出了一种船体及其周围自由面的面元划分方法.采用双3次B样条表达船体曲面,利用广义截面更好地描述船体首尾部形状;通过2次重构截面曲线解决
我们日常使用复印机的过程当中,卡纸现象是最常见的问题。由于复印机的工作原理及其机械构造的原因,卡纸现象也是不可避免的。如果是偶然发生卡纸现象,则并非是故障,如果卡纸