基于内容特征码的重复网页检测方法探析

来源 :科技信息 | 被引量 : 0次 | 上传用户:xixiyibobo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重复网页的特征提取方法和比较算法进行了分析,并对目前常用的基于特征的检测算法进行了比较,总结了当前常用特征提取和比较算法的不足和需要改进之处。
其他文献
21世纪,科学技术日新月异,社会需要大量创新人才,学校教育是培养创新人才的摇篮,21世纪的教育要求教师必须掌握现代化的教育教学手段。充分发挥现代教育技术的优势,能够激发学生的
课程标准提出在教学中教师要充分利用现代化教学手段,创设最佳的学习环境,而多媒体已被广大教师普遍使用的一种辅助教学手段,是否使用多媒体以及使用何种多媒体应根据教学内容来
本文对广东省22所主要公共图书馆的特色资源数据库建设情况进行了较为全面的调查分析,提出特色资源数据库建设存在发展不平衡、建设水平参差不齐、数据更新周期长等问题,并针
高标清硬盘同播系统主要是为了满足电视台由标清向高清过渡的播出要求,必须兼顾原有的标清用户和新发展的高清用户的收看需求,根据这些需求,对电视台的硬盘播出系统进行详细
新课程背景下,英语教学必须从传统英语语言点讲授为主转变为以学生英语交际能力培养为主;教师地位要从英语知识的传授者转变为英语语言实践能力的指导者和质量监控者为主;英语课
本文紧紧围绕“保增长、促创业、惠民生”这一主题,从税收理念、税收政策、税收优惠、依法治税、纳税服务等几方面入手,对如何充分发挥税收职能作用,保增长、促创业、惠民生的有
In James Joyce’s short story Eveline,Eveline was in a dilemma of whether to go or not to go with her lover.She struggled between the two choices and had an epi
无论人们对于“网络文学”还会产生多少争议,这个概念终于站稳了脚跟。现今已经没有多少人否认网络文学的存在。尽管“网络文学”的完善定义有待于理论的进一步修补,但是,文学进
当前,企业的坏账损失越来越多,应收账款问题已严重影响了企业的正常经营活动,本文在分析其不利因素的基础上,进一步提出了解决应收账款问题的办法和措施。
清代济南地区旱蝗灾害严重,驱蝗神信仰和龙神信仰格外受到重视。在民间,龙神信仰和驱蝗神信仰有着广大的信仰空间。而官方政权力量对于驱蝗神与龙神的不断祭祀与敕封成为驱蝗