论文部分内容阅读
信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人类的生活,对信息的获得和挖掘成为科学界关注的焦点。在互联网发展的初期,信息量和需求量都比较少,那么用户可以很容易的找到自己想要的信息,不过,随着互联网发展越来越迅速,这个事情变得越来越难了。搜索引擎的产生使在互联网上查找信息又变得相对容易了。但是,在海量的数据和异构的信息中存在这大量的网页噪音,这些噪音严重影响了搜索引擎系统的服务质量,降低了搜索结果的准确度,也增加了服务器处理过程的时间和空间上的开销。首先,本文详细介绍了在网页净化系统实现中所用到的关键技术,主要包括文档对象模型DOM的定义及其特点;网页结构,其中包括网页标签树表示,网页如何用网页标签树表示,如何用DOM树表示;中文网页分块技术,通过结合DOM树以及HTML的一些重要标签对网页进行分块同时,本文来列举了中文网页分块的一些规则,结合对这些技术的了解,有助于对本研究课题功能实现的理解。然后,本论文分析了信息网行业搜索引擎的架构:WebServer&SO,CACHE管理系统,最新库,数据管理系统,及其网页净化系统。分别对每个子系统的功能做了详细的阐述,并详细介绍了各个子系统之间的关系,并对整个搜索过程做了详细的说明:用户从Web端的CGI(通用网关接口)程序输入查询串,CGI程序对它进行合理的分割并把查询串传入搜索系统,把查询到相关词的页面传入网页净化系统,最后把净化后的页面通过Web Server端的CGI程序显示在浏览器中。网页净化系统在整个行业搜索引擎中的作用:通过Web端的CGI程序显示净化后的结果,并对CGI做了介绍。网页净化系统PageClean是本文介绍的重点,也是本论文的核心部分。本文详细阐述了PageClean系统的架构,实现该系统依据的规则,该算法的主要思想及实现算法的流程。最后,论文给出了网页净化系统PageClean测试方法,并根据测试数据得出结论:网页净化系统PageClean无论是在净化速度还是在净化效果上都具有较好的性能,达到了预期的目标。