论文部分内容阅读
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域的一个研究热点。本文在对国内外文本自动分类系统分析研究的基础上,从文本分类知识的自动获取到分类器设计,详细地讨论了中文Web文本分类系统中影响分类结果的几个关键技术,并且深入研究了如何提高中文Web文本分类的精度、速度和稳定性,最终实现了一个中文Web文本分类系统。首先本系统利用MapReduce原理对大量Web文本进行并行化预处理,然后利用改进的向量空间模型表示特征,同时通过对文本特征的提取方法研究,提出了一种新的联合特征提取方法,在分类器设计方面,利用改进的独立分量分析算法提升了朴素贝叶斯分类器的性能,另外为了提高系统的整体分类性能,本文实现了将SVM分类器和改进的Bayes分类器集成到一个系统中,构造多分类器引擎,获得了比单个分类器更好的分类性能。通过在该系统上的大量评估性实验及对实验数据的统计分析,证明本文采用的中文Web文本分类方法基本达到了上述目标。针对以上研究成果,本文描述了原型系统的设计实现细节。