面向网页去重的特征提取与重复模式发现

被引量 : 0次 | 上传用户:cdna3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存在大量的因转载或抄袭形成的重复网页,这些网页被搜索引擎重复的存储和检索,造成存储空间的浪费和检索效率的降低,同时也带来了较差的用户体验。因此网页去重是搜索引擎中比较重要的一个环节。本文针对网页去重着重研究以下两个问题:第一个问题是网页特征提取。网页特征提取的前提是网页正文提取,但由于广告等噪声的存在,导致目前的正文提取算法均不能完全准确的提取出网页正文内容,这对后续的网页去重造成了较大的影响。如何在存在少许噪声的正文中提取纯净的网页特征在很大程度上决定了网页去重的准确率。本文提出了基于层次筛选的特征提取算法,充分考虑了段落、句子与关键词的联系,逐层筛选网页信息得到特征词、词性对集合,达到将网页本身结构和内部信息权重结合的目的,使提取出的特征不仅能均匀覆盖网页,还具有一定的抗噪性。第二个问题是网页特征重复模式发现。目前的重复模式发现算法主要分为两种:基于集合的实现和基于特征串的实现。基于集合的实现比较注重特征集合中特征项的权重,但忽视了特征项的顺序,加上Hash值冲突问题带来的误判,此实现并不适合用于网页去重;基于特征串的实现虽然考虑了特征项的顺序,但采用最长公共子串衡量网页重复度则过于严格,检测不出非连续重复的网页。为了解决上述问题,本文提出了基于改进最长公共子序列的重复模式发现算法。将特征词、词性对集合以句子为单位计算最长公共子序列,既降低了维度、保证了句子的完整性,又能改善Hash值冲突问题。为了提高计算和查找的效率,本算法改进了最长公共子序列算法的经典实现和倒排表组织方式,并将其应用于网页重复模式发现。最后,本文进行了相关实验验证工作,结果表明改进后的算法在召回率和准确率上都优于目前的常用算法。
其他文献
"同课异构"提供了中学一线教师相互沟通,相互交流的平台。本文通过高中生物必修一中"ATP的主要来源—细胞呼吸"一节,针对参与"同课异构"的两位老师,对该节课程的教学设计、策
随着我国经济的发展,对建筑工程的要求越来越高,而建筑方案在建筑工程中发挥的作用也日益明显,可以说建筑方案设计在很大程度上决定了建筑日后建设的整体规划和质量,是不容小
本文在普遍语法的原则和参数理论框架下,以隐含pro参数为例,探讨第二语言习得中参数的设定及其对外语教学的启示,认为第二语言习得间接性地利用普遍语法,母语对第二语言参数
对中学教师情绪劳动进行研究,不但可以丰富情绪劳动的内涵,更好的了解教师的情绪状况,为政策制定者提供参考,同时也有助于教师的身心健康发展。对中学教师情绪劳动状况的了解
目前,我国的金属矿山,存在着一种安全隐患非常大的矿物质——全尾矿。它是指粒级组成未经人工干扰的选厂固体废弃物,一般来讲排放量较大,是金属矿山主要的环境灾害源。2008年
在我国经济飞速发展的新时期,社会人才需求量不断的上升,传统的人事档案管理已经不适于对庞大人力资源信息量进行管理,"以人为本"、"全面发展"等档案管理新要求逐渐成为人们
转基因技术在农业生产上的应用被认为是新的一轮农业技术革命,并且已经在全球很多国家被加以广泛使用,我国也不例外;转基因技术的迅猛发展,使得转基因产品从研发阶段转为大规
在中国城市与市镇史的研究中,施坚雅模型虽然影响深远,但运用其理论方法开展个案研究的尝试却并不多。近代以来有关嘉兴城镇人口、工商业、行政与社会机构的资料记载为这种研
本论文的主要研究工作有:1.采用水平衰减全反射傅里叶变换红外光谱法(HATR-FTIR)直接测定常见中药材槐花及其伪品茉莉花、扁豆花的红外光谱图,利用傅立叶自解卷积技术处理红外
如何面对竞争,一直以来都是企业要面临的一个难题。当今世界经济发展迅速,全球化、精细化的竞争在进入21世纪以来更是进入了白热化。任何一个企业都需要考虑如何更好地来拥抱