网页信息净化方法的研究与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:qingyong339
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人类的生活,对信息的获得和挖掘成为科学界关注的焦点。在互联网发展的初期,信息量和需求量都比较少,那么用户可以很容易的找到自己想要的信息,不过,随着互联网发展越来越迅速,这个事情变得越来越难了。搜索引擎的产生使在互联网上查找信息又变得相对容易了。但是,在海量的数据和异构的信息中存在这大量的网页噪音,这些噪音严重影响了搜索引擎系统的服务质量,降低了搜索结果的准确度,也增加了服务器处理过程的时间和空间上的开销。首先,本文详细介绍了在网页净化系统实现中所用到的关键技术,主要包括文档对象模型DOM的定义及其特点;网页结构,其中包括网页标签树表示,网页如何用网页标签树表示,如何用DOM树表示;中文网页分块技术,通过结合DOM树以及HTML的一些重要标签对网页进行分块同时,本文来列举了中文网页分块的一些规则,结合对这些技术的了解,有助于对本研究课题功能实现的理解。然后,本论文分析了信息网行业搜索引擎的架构:WebServer&SO,CACHE管理系统,最新库,数据管理系统,及其网页净化系统。分别对每个子系统的功能做了详细的阐述,并详细介绍了各个子系统之间的关系,并对整个搜索过程做了详细的说明:用户从Web端的CGI(通用网关接口)程序输入查询串,CGI程序对它进行合理的分割并把查询串传入搜索系统,把查询到相关词的页面传入网页净化系统,最后把净化后的页面通过Web Server端的CGI程序显示在浏览器中。网页净化系统在整个行业搜索引擎中的作用:通过Web端的CGI程序显示净化后的结果,并对CGI做了介绍。网页净化系统PageClean是本文介绍的重点,也是本论文的核心部分。本文详细阐述了PageClean系统的架构,实现该系统依据的规则,该算法的主要思想及实现算法的流程。最后,论文给出了网页净化系统PageClean测试方法,并根据测试数据得出结论:网页净化系统PageClean无论是在净化速度还是在净化效果上都具有较好的性能,达到了预期的目标。
其他文献
多输入模糊推理与多目标模糊决策算法在生产、经济、科学和工程活动中有着广泛的应用。随着生产技术与社会的发展,现实中的许多系统变得越来越复杂。例如,经济系统、社会系统、
数据库系统是信息系统的存储核心,数据库系统中的数据安全性很大程度上决定了整个信息系统的信息安全性,数据库安全的问题越来越多地受到关注。传统数据库系统中使用自主访问控
自上世纪80年代,关系型数据库(Relation Database, RDB)以良好的可操作性和优越的性能价格比逐渐取代文件系统、层次数据库系统和网状数据库系统,成为数据库的主流技术,市场
随着我国国民经济和城市化的发展,城市交通问题越来越严重。对城市交通网络进行交通疏散的计算机模拟,为安全、有序、有效的维护城市交通安全提供指导,成为了当前的研究热点。人
从2000年开始,IP多媒体子系统(IMS,IP Multimedia Subsystem)一直受到广泛的关注。IMS可以扩展新的3G业务,提供更强的业务控制和管理能力;融合固定接入网络和移动接入网络,向网络
近年来,随着多媒体技术以及网络技术的迅速发展,网络上的信息资源日益丰富。如何从海量的图像库中检索出满足人们需要的图像已经成为一个研究热点,与此同时,基于内容的图像检
近年来,虚拟化技术受到越来越多的关注。虚拟化技术作为最热门的IT技术之一,因其在降低软硬件资源消耗和提高计算资源的利用率方面的优势而受到青睐。在众多虚拟化技术中,Xen
本文在分析了现有公共卫生与医疗信息系统实现的问题与缺陷后,以公共卫生与医疗信息化的特点为基础,着重研究了以下两点内容:提出了利用Struts和Hibernate技术构建系统应用的
工作流是一个业务流程,用于表达活动及活动之间变化过程。工作流管理与工作流的控制和协调有关,它的主要特点是使处理过程自动化。它根据一系列定义的规则、把文档、信息或任
近年随着多媒体数据成指数级的增长,对于多媒体的分析和分类就变得越来越迫切。当人们在浏览和理解视/音频内容时,作为多媒体数据中标志性部分的音频,为人们的感知提供了重要