一种基于Simhash的文本快速去重算法

被引量 : 0次 | 上传用户:mingN78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在万维网中,大多数的网页都是重复的,然而,这些重复的网页对于搜索引擎返回的搜索结果是冗余的,搜索结果大多数不能体现用户查询意图。如果能将这些冗余的搜索结果去重,并实现返回结果按照重复率最大的网页进行排序显示给用户,无疑是一种可以满足用户查询需求的方式,那么,网页去重亟需解决的是使用什么样的技术手段判断网页内容是重复的最重要,如何能够去除相同或者相似的网页可以提高检索效率、降低存储开销。实际搜索中,搜索引擎返回数据会给用户提供很多相同的查询记录,但是如果返回重复的搜索结果是不科学的,因为大多数返回结果存在相似度极高的情况,甚至就被检索到的是同一个网页,当爬虫抓取网页的同时可以判断下其网址是否在已经下载的列表中,如果该网址的前半部分是相同的,可以认为它们可能是重复性的网页,这些重复的网页直接就不用下载,但是,在网址不相同的情况下,也可能网页内容是重复的,这种情况下的网页也不必出现的结果也中,那么,一个精锐的问题就是:很多重复的网页到底选哪一个作为返回结果呢?提到文本相似性计算,首先要想到的应该是向量空间模型VSM(VectorSpace Model),这种方法存在的问题是:需要对网页两两比较相似度,无法扩展到海量网页的处理。传统的判断网页相似度的经典方法是“向量夹角余弦”,其主要思想是一篇网页中出现词的词频构成一个二维向量,然后计算网页之间对应的向量夹角余弦,但是,尤其一篇网页中含有大量的特征词,导致生成的二维向量的维度特别的高,这样一来使得计算的代价太大乃至于超出了预计的时间、空间复杂程度,那么对于大型的搜索引擎处理上万亿级别的网页请求是不可接受的。于是,Simhash算法诞生了,其主要思想是“降维”,将高维的特征向量映射成一个唯一“Simhash”值标识,所以比较网页唯一“指纹码”标识来确定的网页的是否重复。本文主要方法是一种基于Simhash的文本快速去方重法,一篇网页提取出网页内容后,必须经过基本的预处理,比如:(中文的,去除停留词、中文分词处理、英文的,去除停留词、词根还原),最后会得到一个向量,实验结果表明,本文提出的方法的实验结果良好。
其他文献
目的:检测早发性牙周炎患者血清抗牙龈卟啉菌脂多糖IgG抗体的滴度和亲和力,并探讨抗体滴度水平和亲和力之间的相关性。方法:受试者为15名早发性牙周炎患者、16名成人牙周炎患
伴随着生态危机的加剧,人类的居住和生存环境受到了极大的威胁,“保护生态环境,缓解生态危机”已经成为了全社会共同关注的热点问题。由于自然地理、气候环境等原因,内蒙古地区的
雷纳·韦勒克既是杰出的文学批评大师,又是文学史研究领域的渊博学者,同时还是颇有建树的比较文学专家。客观而言,作为英美新批评派文论的领军者、比较文学美国学派的掌舵人,
王阳明反对朱熹"即物穷理"的格物方法,主张"致良知",这一分歧促使其在《大学问》中反对朱熹将《大学》古本之"亲民"改为"新民"。从中可以窥见理学与心学在认识论、本体论、伦
<正>民国初年,景德镇有位赫赫有名的陶瓷艺人,他姓黄,叫寿修,江西丰城人。他有一手高超的颜色釉、青花制作手艺。特别是他做出来的雕塑工艺仿古产品,瓷器还没有开窑,就被客商
沈从文,在中国20世纪的文坛上是一个独特性的存在。这种独特性不仅在于他以“乡下人”的眼光看待中国的“常”与“变”,而且还在于他用诗一样的语言建造了供奉人性的希腊小庙,在
去年9月份,学校安排我去担任高一(14)班的物理教学。接受任务后我就在想:这一学期我该怎样组织教学?如何保质保量地完成教学任务?一学期的教学让我感悟到,对于高一新生,首先
旋毛虫(Trichinella spiralis),是袋形动物门(Aschelminthes)、线虫纲(Nematoda)的寄生线虫,能够感染包括人在内的多种哺乳动物。已有研究表明旋毛虫对肿瘤具有抑制作用。本实验室前
维吾尔族古典文学中对诗歌研究可以发现,目前为止研究诗歌的学者除了研究维吾尔族古典文学著作中的代表《福乐智慧》和《突厥语大词典》中记载的诗歌以外,对其他诗歌的记载少之
20世纪三十年代,中国文学批评进入到了一个全新的历史阶段,新文学批评者开始纷纷引入各种西方文学批评理论对中国新文学进行观照,并在实践中建立起自己的文学批评理论,叶公超也是