大规模文本去重策略研究

被引量 : 0次 | 上传用户:wq446395427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的不断发展,网络信息共享给人们带来了极大的方便,但同时引入了大量转载信息。去除重复网页可以提高搜索引擎的搜索精度,减少海量数据存储空间,改善用户的体验;另外重复信息的检测有利于打击文章的剽窃抄袭,保护作者的原创性。综上网页的重复检测是非常有研究意义的课题。网页去重和科技论文抄袭是重复凸显的两个问题。目前的算法以关键词去重、指纹去重为主,解决程序重复及文档重复的论述居多,而对网页噪声的影响考虑的较少,另外搜索引擎实际上是超大规模的网页去重的应用,如何提高去重效率也是本项研究的需要解决的主要问题。本文分别针对以上两类重复提出了相应的解决策略。从理论和应用两方面对去重算法及其应用进行了较为系统的研究,概括如下:(1)大规模网页去重。网页重复以转载为主,去重的瓶颈是如何降低网络噪声的影响和提高去重效率。本文针对网页噪声形式多样,去除噪声规则不易移植的局限性,论述了基于节点重复的较为普适的去除噪声的方法。为了增大网页去重的准确性,然后提出基于最大块的网页特征抽取算法,并与传统的方法加以比较进行分析。最后,本文应用Bloom Filter的特征码映射和B-Tree的特征码组织形式,保证了大规模网页去重的效率。(2)科技论文抄袭检测。当前科技论文抄袭严重,但针对科技论文抄袭的自动检测的学术研究不多。本文对科技论文的抄袭检测做出了尝试。首先将科技论文应用bootstrapping算法进行主题词扩展,并根据主题词的重复情况粗分重复组,然后提出基于滑动窗口的加权相似度算法,采用相似曲线图的较为直观的表现计算结果,取得了较好的研究效果。
其他文献
铁路客运站是旅客选择铁路出行的起讫点,它的主要任务就是安全、迅速、准确、便利的组织旅客上、下车,同时便捷的完成旅客行李、包裹的托运或领取工作。随着经济的迅猛发展和
基于DSP和FPGA相结合的运动控制系统具有控制精度高、实时性好、抗干扰能力强等特点,是目前控制系统的主流。本文针对激光加工控制系统的特点,对应用于激光加工领域的控制系
改革开放以来,中国城市正经历着急剧的变化,历史街区大片的推倒重建抹去了旧日痕迹,也带来了很多的问题和矛盾。历史街区具有时代特征和历史价值,是城市中需要保护的重要部分
目的观察综合疗法治疗慢性肝炎胁痛的临床疗效。方法将86例慢性肝炎胁痛患者随机分为两组。对照组给予保肝抗病毒基础治疗,治疗组加用中药内服和耳穴疗法。观察两组患者治疗
借助地磁背景场及地磁测量,通过对相关分析中各指标的研究,给出了用于水下地磁匹配定位的最优指标。分析了现有TERCOM算法的缺陷并对其进行了改进,提高了水下地磁匹配定位的精度
<正>氯化物是饮用水中常规理化指标,含量通常以CL-计,含有少量氯化物饮用水通常是无毒性的,研究表明,当饮用水中的氯化物含量超过250mg/L时,人对水的咸味开始有味觉感官,氯化
目的:探讨Cripto-1蛋白在人肺癌组织中的表达及其临床意义。方法:通过免疫组织化学方法检测60例肺癌患者的肺癌组织及50例癌旁组织中Cripto-1的表达,分析Cripto-1在人肺癌组织
本实验以氨基葡萄糖盐酸盐为原料,分别与苯甲醛和水杨醛反应合成希夫碱。使用单因素法,探究实验最佳反应时间、温度、不同的投料比,找到希夫碱与镍、镉金属化合物发生反应的
随着我国经济的快速发展,机动车的增长十分迅速,截止2007年6月我国的机动车已达到1.5亿辆,随之而来的交通事故也不断增多。由于我国长期以来没有一部机动车交通事故损害赔偿
作为一位在传播学史上具有重要地位和深远影响的学者,麦克卢汉的声名曾经大起大落,几度沉浮。有关他的评论无论是褒是贬,大都局限为一种随意性的言说,少有学理层面的探讨,缺