论文部分内容阅读
随着web网页的迅速发展,海量的网络信息大量涌现,如何在繁杂的信息中快速找到需要的信息是网页自动分类研究的重要内容。由于文本分类技术研究开始的时间较早,目前已经拥有相对成熟的技术,网页分类的方法仍以文本分类的方法作为研究基础。同时由于网页作为一种半结构化的文档,含有丰富的结构信息,如何利用网页中的结构信息和超级链接信息能够更好的得到网页分类效果,已经成为目前网页分类的热点问题。 本文的研究工作主要包括以下几项,首先根据网页的链接关系,在网页采集的过程中,考虑网页中超级链接指向的网页对待分类网页的影响,提出根据URL判断网页的相似性,并设计相应的爬虫算法来采集网页;接着对网页的构成信息进行了分析,按照基于DOM树的模型抽取网页中重要的标签,由于网页中title标题、各级子标题hn、meta标签中keywords和description的内容、以及超级链接的锚文本等描述的内容对于页面的主题相关度具有突出贡献的意义,在网页分类中对这些内容进行加权处理,增大这些信息的权重。然后提出了文档频率(DF)和2c统计量(CHI)法相结合的特征选择算法,基于朴素贝叶斯方法训练组合分类器进行分类,利用平均投票法判断出网页最终所属的类别。 最后本文从一些门户网站中采集大量的网页数据,利用本研究中提出的方法对网页进行分类实验.实验证明本方法相对于将单一的待分类网页作为分类的输入对象,分类精度有了明显的提高。