Simhash算法在文本去重中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:liusha5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良
其他文献
分析了当前在中小学教师继续教育中进行环境教育的必要性,探讨了在课程改革背景下中小学教师继续教育中进行环境教育的内容、教学策略和教学方法.
芬兰Wrtsil公司将向在芬兰西部举行的瓦萨房屋博览会提供独特的燃料电池装置,该装置可发电和供热。电池使用SOFC技术,即平面固体氧化物燃料电池技术。这种燃料电池电站为世界首
期刊
腮腺腺淋巴瘤是较常见的腮腺良性肿瘤,发病率仅次于多形性腺瘤,居第二位。临床发病缓慢,具有多发倾向、术后易复发。本文分析2007年1月~2010年12月在我院住院经手术病理证实的
评述了化学法、生物法、基因工程法、合成阿斯巴甜的进展,指出了阿斯巴甜对N-端的结构有严格的要求,以及疏水基团X、肽键、氨基上的氢键对阿斯巴甜甜味的影响。
目的了解碳纳米材料在胃癌治疗中的应用现状。方法对国内外有关碳纳米材料应用于胃癌治疗中的文献进行复习并进行综述。结果碳纳米材料作为淋巴结示踪剂在胃癌淋巴结中染色明