论文部分内容阅读
本文较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和支持向量机等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和支持向量机分类器三个中文文本分类器,集成了一个实用性较强的实验系统。 深入地分析了k近邻方法的不足,提出了改进的k近邻方法,提高了分类器的性能。 重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分、线性不可分和非线性可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。采用组合结构实现N个类别的支持向量机多分类器。针对支持向量机多类器中存在的文本漏识问题,采取kNN方法和特征匹配方法进行后处理,对失效文本实施二次分类,改善了多分类器的性能。 实验表明,三种分类器都适合于中文文本分类的需要,其中支持向量机分类器的分类结果稳定,精度高,性能最好。而将k近邻方法和特征匹配方法与支持向量机相结合形成的支持向量机多分类器更加适用于中文文本分类的需要。