论文部分内容阅读
网页中包含着大量的HTML结构信息、超链接和噪音信息,因此网页分类可以看成是半结构化的噪音环境下的文本分类问题.在互联网迅猛发展的今天,网页分类可以在较大程度上消除网上信息杂乱现象,并方便用户准确定位所需信息,加速检索过程和更好地组织检索结果,是一项具有很大使用价值的关键技术和基础技术.
网页分类可以看成是噪音环境下的文本分类问题,本文主要对网页分类中的噪音问题进行探索.具体地,本文把在传统文本分类中性能基本相当的基于N-Gram狮模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBaycs)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,实验验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBaycs的分类性能和非噪音环境下基本相当且远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感.然后通过对特征的分析,探讨了NGBayes抗噪音的原因.从而得出结论:NGBayes是一种抗噪音的中文网页分类方法.
互联网上的词汇分布与纯文本中的词汇分布之间存在着很大的差异,通过对网页词汇分布规律的分析,本文提出了一种构造网页停用词表的方法,并把其应用到中文网页分类领域.实验结果表明:利用网页停用词表进行网页预处理,能有效地去除网页中的噪音信息,从而提高网页分类的性能.
本文最后一部分阐述了网页清洗、NGBayes和基于网页停用词表的关系.网页清洗是从网页中直接去除噪音信息,抗噪音的NGBayeS利用了相邻汉字之间的依赖关系,网页停用词表主要是从特征中去除噪音词汇,弥补特征选择的缺陷.