论文部分内容阅读
网页分类与信息采集系统中包含了网页爬取、网页识别和文本采集,其中传统的依靠人工进行网页识别的方式在网页信息容量快速增长的条件下是不合理的。同时,Web页面中包含的大量的噪声信息为网页文本采集增加了难度,现有的文本采集技术具有人工维护成本大、准确率不高和通用性不强的缺点。因此,网页的自动识别与文本采集研究成为一个重要的方向。它们与信息检索、搜索引擎、网络舆情和文本推荐等技术相结合,为信息的获取提供了便利。本文研究内容主要有以下几个方面:(1)根据网页分类与信息采集系统的要求,提出基于Web结构特征挖掘的网页类型自动识别方法。该方法的研究重点是特征的选取,在了解网页特征挖掘的基础上,研究了不同网页在结构上的相异的地方,抽取出能够表征网页的特征集,采用经典的分类算法(决策树)构建分类器,从而达到中文网页自动识别的目的。(2)在文本采集自动化的要求下,提出一种基于HTML标签特征挖掘的BBS网页文本提取方法,即文本块抽取。其中心思想是基于以下特点:网页文档的树型结构、多文本中心性、标签元素的层次性等等。在此基础上,提出了基于智能模板的BBS网页文本提取方法,主要思想是通过基于HTML标签特征挖掘的BBS网页文本提取方法找到所需的多文本块的公共信息,然后自动配置该网站对应的文本解析模板,最后采用该模板进行网页文本的解析。(3)搭建网页分类与信息采集系统。本文系统包含了网页抓取、网页识别、网页文本抽取和UI部分。其中网页抓取部分采用通用的抓取技术和流程,目标是对全网进行搜寻,网页识别采用本文的基于网页特征集的网页类型自动识别方法,网页文本抽取部分则是采用文本的基于智能模板的BBS网页文本提取方法。综上所述,在运用实际数据对本系统的方法进行测试后,实验结果表明了本文方法在系统中的可行性、高准确率、通用性以及智能化。