论文部分内容阅读
随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息己经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱和重复等情况的发生。如何在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息,仅靠人工的方式来分类是不切实际的。因此,网页自动分类是组织和管理信息的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究意义和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、中文分词技术、特征提取技术、网页分类技术等。在此基础上,设计了网页信息智能采集与分类系统,本系统主要包括信息采集和信息分类两部分。信息采集部分,主要采用了基于主题的广度优先策略算法的网络爬虫和基于规则模板的网页信息抽取方法,把自由或者半结构化的数据转换成结构化的数据,同时采用基于数据库的信息排重和发布排重方法对信息进行排重。信息分类部分,根据用户的需求,通过采用分词和特征提取等技术相结合的SVM算法对信息进行分类,为用户提供全方位的信息服务。