论文部分内容阅读
随着计算机网络技术的发展,网络信息变得越来越海量,同时也越来越复杂,人们在浏览网页新闻时能否快速找到自己感兴趣的类别是判别该网站优劣的一个重要标准,传统的是靠人工方法对网页文本进行分类,面对如今的海量信息依靠人工分类的方案变得不可行,因此文本自动分类技术应运而生。又由于中文文本相对于英文文本的特殊性,一些传统的分类算法并不完全适用于中文文本,中文文本分类之前还要进行必要的预处理。因此很有必要对中文Web文本分类进行理论与实验应用研究。 本文首先介绍了文本分类的背景、意义以及国内外研究现状,接着介绍中文文本分类的关键技术,包括Web文本预处理、中文分词以及停用词处理;文本表示的几种模型以及文本向量之间相似度计算的公式;重点介绍了几种特征选择算法,在介绍分类评价指标的基础上通过实验证明了卡方统计算法在特征降维方面的优越性。接下来介绍了几种常用的文本分类算法及其特征,其中详细介绍了朴素贝叶斯(Na(i)veBayes)算法,提出了对算法进行条件概率的m估计以及平滑处理的改进公式,并通过实验比较了文档型模型与词频型模型;对K最近邻算法(KNN)的公式进行了改进,并通过对比实验证明了改进后KNN算法相对于传统算法分类效果的提高。 由于支持向量机(SVM)算法在机器学习领域起着越来越重要的作用,本文还详细介绍了支持向量机的理论基础,讨论了对于SVM线性可分与线性不可分问题、训练方法、核函数与参数选择问题以及多类分类问题。此外给出了构造组合分类器的几种方法,并通过实验证明了SVM分类器核函数的不同对于分类结果的差异,通过对比实验证明了SVM分类器相比于其他分类器分类效果的优越性,并通过另一实验证明了组合分类器对于分类效果能够起到提升作用。 最后,针对娱乐新闻Web文本信息的特殊性,即文本包含多个和主题不相关的类别信息,设计并实现了Web娱乐新闻文本自动分类与评论生成系统,并通过实验证明了分类算法的有效性。