搜索引擎中网页净化与消重技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xinxi_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展导致数字化信息呈爆炸式增长。搜索引擎作为帮助人们在海量信息中寻觅所需信息的工具,其重要性与日俱增。然而,由于网页噪音和重复网页的存在,搜索引擎的检索结果中存在着大量的冗余信息,使得搜索引擎的服务质量降低。因此,如何快速准确地去除网页噪音和重复网页成为一个亟待解决的问题。本文深入研究了搜索引擎中网页净化与消重的技术。首先分析了网页噪音及网页重复对搜索引擎的影响;然后介绍了网页噪声和网页重复的相关概念及特点,研究了网页净化与消重的经典算法,并分析了这些算法的优点和不足。在网页净化方面,根据同一网站的网页结构布局基本相同的特点,提出了一种新的基于树编辑距离的网页净化算法。该算法利用树编辑距离和严格自顶向下映射原理,以最小的代价检测网站的模板,并将该模板作为噪音信息从网页中去除。实验结果表明,该算法在保证网页主题内容完整的同时,有效的去除了网页噪音。在网页消重方面,针对web上网页重复的现象,提出了一种新的基于信息指纹的网页消重算法。该算法为了排除噪音的干扰,将网页净化技术融入算法中,并充分利用网页文本的内容和结构信息来提取网页特征,然后结合信息指纹技术,实现了重复网页的去除。实验结果表明,该算法在保证较高准确率的情况下,具有更高的召回率。
其他文献
网络模拟,是研究网络行为、评估协议性能的重要方式。PDNS是应用非常广泛的一个并行分布式网络模拟器。然而,PDNS也面临着分布式应用难以回避的系统可靠性方面的缺陷。检查点
随着Internet及其应用的迅速发展,网络规模日益增大,网络应用日益复杂,由于互联网是一个高度复杂的非线性系统,为了实现可靠的数据传输及合理的网络资源分配,就需要深刻了解
近年来,我国卫星遥感技术正高速发展,遥感数据量爆炸式增长,遥感数据处理任务更加紧迫。面对如此大的遥感数据处理任务,高性能集群计算已经取得了非常不错的效果,极大地提高了数据处理效率。在遥感数据集群处理系统中,任务调度是其非常重要的组成部分,也是其性能提升的关键。而已有的调度算法都或多或少存在节点负载不均、计算资源利用率低、任务吞吐量小、任务平均调度时间较长等问题。为解决上述问题,本文在分析已有调度算
三维扫描设备可以快速获取被测物体的表面形状信息,其测量得到的海量三维点坐标数据称为点云。在三维物体数字化过程中,由于受测量设备测量范围的限制以及被测物体外形的复杂性
随着社会经济的迅猛发展、城市人口的日益集中和社会活动强度的增大,突发性环境污染事故逐渐增多,而环保部门反应时间短、应对措施要求高,需要迅速做出正确决策,采取切实有效
通信规约对变电站综合自动化系统安全且可靠地运行起着极其重要的作用,但由于规约种类繁多,致使众多厂商的产品不能很好的兼容,给通信的双方造成极大困难。为改变这种局势,IEC逐步提出了一系列通信规约技术标准。但由于这些标准的制定周期较长,各方面对该系列标准的理解与应用情况也存在较大差异,导致国内变电站综合自动化系统中不同厂家或同一厂家在不同时期内对同一种通信规约的实现有所不同,从而使变电站综合自动化系统
随着Internet技术的发展,各类基于B/S架构的企业级应用系统在优化企业管理,加速企业信息流动等应用上扮演着重要角色。评价一个企业未来的发展潜力很大程度上取决于企业的信
无线传感器网络是一种新型的信息获取和信息处理技术,在日常生活中应用广泛。无线传感器网络的应用很多都需要节点的位置信息,因此解决无线传感器网络的节点定位问题至关重要
伴随着全球经济的一体化,社会化分工逐步细分,跨区域协作趋势日益明显,服务不再是由单一的人或企业所提供的简单活动,而是由多参与方协同各个服务环节所构成的复杂产业链。因
精确的室内定位信息,对可用空间和库存物资实现高效的管理;能导航警察,消防人员,士兵,医务工作人员完成特定的室内任务;同时智能空间、普适计算、服务发现都离不开位置服务,