搜索引擎系统网页消重的研究与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:xd369426185
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索系统)即是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在大量的重复网页,它们主要来自网站之间的转载。这些内容重复的网页既占用了网络带宽,又浪费存储资源,用户不希望看到一堆内容相同或近似的检索结果,真正有用的结果往往淹没在这些重复信息之中而不易被发现。如果能够有效消除这些重复网页,不但会提高检索的准确率,节省用户的时间和精力,而且对搜索系统本身而言可以节省大量的存储资源,提高工作效率。本文主要研究搜索引擎中的网页消重问题。目前有效的网页消重方法还比较少,主要都在服务器端实现,即在搜索系统的采集器进行网页采集的过程中消除重复的网页。目前使用的方法主要有基于相同URL的方法、基于聚类的方法、基于特征码的方法和基于签名的方法。其中聚类的方法是先将文本基于向量空问模型表示为一个向量,然后再应用各种方法来实现聚类或分类。这种方法的向量夹角计算具有很高的计算复杂度因而占用较多的处理时间。此后提出的基于特征码的方法具有较高的消重效率,但仍然难以抵抗网页转载时产生的噪声。与以往消重工作不同的是,本文将消重工作分为服务器端和客户端两部分进行。在研究了大量重复网页的基础上,将重复网页的概念进一步细分,分成内容完全相同的网页和经过适当编辑、裁剪等工作后形成的基本相同或相似网页,并分别在搜索系统的服务器端和客户端进行这两种不同类型网页的消重工作。在以上研究工作的基础上提出了一种基于网页内容特征串的新方法来解决服务器端的网页消重问题。该方法充分利用了网页的结构特征,采取主码和辅码相结合的方式来标识网页文本。主码用来标识网页文本的段落结构信息,辅码用来标识网页文本的内容信息。本文采用对主码进行聚类,对相应类别的辅码进行匹配的策略,提高了消重的准确率和效率。实验证明该方法具有比较理想的消重效果。为了实现搜索系统的智能化和个性化定制功能,本文在服务器端消重的基础上,又在客户端提出了智能代理模型。在此基础上,分析了新闻类网页的重复特点,提出了适用于客户端的基于关键词上下文匹配的网页消重新算法。该算法利用新闻类网页转载率高、重复率高的特征,考虑到用户搜索关键词一般可以表征其所希望获得的网页,使用用户提交关键词的上下文来构成匹配串,对各匹配串进行比较来实现网页消重。该算法采用模糊匹配的思想来抵抗网页噪声,引入可以根据需要进行调整的模糊因子和重叠因子等参数,得到了满意的消重效果。本文为了验证所提出算法的有效性并比较其消重效果,在Windows平台上基于Java语言以及Lucene工具包开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,并在该系统上实现了本文的算法。实验结果表明,本文提出的两种消重算法均具有较高的重复网页召回率、消重准确率和较低的漏删率及误删率,进一步改进、完善后,可望获得实际应用。最后进行了全文总结并提出了进一步研究工作的设想。
其他文献
虚拟机(Virtual Machine,VM)是相对于我们平常所用的实际的计算机而言的一个概念,它是一个假想的模拟实际计算机进行工作的软件系统。虚拟机的优点之一就是计算机程序可以在
网络和计算机越来越广泛地应用于当今社会,使人们享受着网络带来的诸多好处。与此同时,网络安全问题也愈发突出。入侵检测系统正是一种积极主动的安全防护技术,作为防火墙、数据
学位
面向服务架构(SOA,service-oriented architecture)的概念最初由Gartner公司在1996年提出,近年来受到了学术界与工业界的广泛关注,被誉为企业级软件架构的下一个里程碑。面对
随着无线通信技术、嵌入式技术、分布式计算技术等技术的不断发展,无线传感器网络进入快速发展时期,它在环境监测、智能家居、医疗护理等方面得到了广泛的应用。在无线传感器
几何模型间的碰撞检测是织物仿真、计算机动画、机器人、CAD/CAM、虚拟手术等多领域的关键问题之一。快速而准确的碰撞检测对提高与人交互的虚拟环境的真实感至关重要,尤其对于
随着互联网技术的普及,人们可以方便的通过手机、电脑等终端设备接入互联网传递信息,这一方面方便了我们的生活,但另一方面网络安全问题也随之而来。隐蔽信道是我们进行隐蔽
我国正在面临的人口老龄化趋势越来越引起社会的广泛关注,其中如何提高空巢老人的生活质量,保障独居老人的生活安全是最主要的关注热点。随着计算机技术、传感器技术、网络技术
随着互联网技术的迅速发展和普及,数据库的开发和应用也越来越网络化。人们希望通过互联网获取各种网络数据库资源,以方便自己的学习和工作。传统基于数据库应用程序的数据库访
供水管网漏损定位与整体运行状态估计是供水企业管理运营供水管网的普遍问题,国内城市供水管网漏损率普遍较高,且难以对监测节点外的管网运行状态进行有效估计,造成了巨大的
市场竞争的日趋激烈以及市场需求的瞬息万变对企业的流程管理提出了挑战。为了提高企业的竞争力,企业迫切需要一种合理的流程协调机制以提高流程的效率和应变能力。目前主流