论文部分内容阅读
随着科学技术的迅猛发展和Internet的日益普及,人们面临的信息数据呈现爆炸式的增长,如何对海量、重复、异构的文本数据进行快速有效的提取一直是本学科的前沿研究课题。文本自动分类作为处理海量信息的关键技术,通过对文档集的分类提炼,抽取有用的知识、规律等信息,建立良好的组织结构,以提高文档存取和检索等操作效率。在数字存储技术日益普及的今天,文本自动分类技术应用范围更加广泛,如数字图书馆、电子邮件的自动分类、电子商(政)务、新闻分类等。因此对文本自动分类技术的研究不仅具有重要的学术价值,而且具有广泛的应用前景。本文首先分析了现有的中文文本分词算法,在深入研究常用分词算法的特点的基础上,设计了一种改进的词典机制,并提出了一种改进的逆向最大匹配分词算法,所提出算法显著提高了分词处理速度和分词正确率。深入分析了文本分类中传统的特征选择评估算法,在此基础上提出一种基于类别的特征选择算法。实验结果表明,与传统特征选择方法相比,所提出特征选择方法获得的特征具有更好的文本分类效果,能够更好地提高分类系统的性能和精度。最后,基于粒子群算法,对支持向量机的模型参数选择问题进行了研究,通过将粒子群算法与支持向量机相结合,给出了PSO-SVM算法。PSO-SVM算法是建立在SVM数学模型的基础上,在支持向量机分类算法的训练过程中引入粒子群算法,对误差惩罚因子和核函数参数进行优化,并同时优化最佳特征子集,在此基础上,将SVM的参数选择问题转化成整数规划问题,通过粒子设计和适应度函数的设计,最终集成了粒子群算法的全局搜索特性和支持向量机的良好的分类性能,改善支持向量机的学习、分类能力,提高文本分类的正确率,减少特征数量。通过对中文文本分类数据集进行的测试,结果表明该算法与GA-SVM算法相比,可以获得较高的学习能力和更好的分类正确率。