论文部分内容阅读
随着社会经济和信息技术的迅速发展,各类信息呈现出爆炸式增长,而文本数据依旧是最主要、最直接的信息载体。为从海量文本信息中快速有效地提取有价值的信息,数据的分析及利用方法展现出了必要性,这也使得信息检索、信息过滤等技术正在不断被人们深入研究和广泛应用。作为它们的基础工作,文本分类特别是其重要分支的中文文本分类技术具有重要的研究意义。计算机自动判别文本的类别并不是件轻而易举的工作,人们需要预先设定好类别标准,对文本进行符号化描述,转化为计算机能够识别和理解的方式,并设计对应的文本分类算法,从而利用计算机强大的运算能力代替人工进行分类。课题就应用模糊积分进行多分类器融合的文本分类技术展开研究,论文首先说明了相关的研究背景和意义,分析了国内外文本分类技术的研究现状,叙述了本文中采用的研究方法及内容,然后介绍了神经网络分类器与k NN分类器,提出了由于不同的文本分类器各自存在优势与不足,故通过多分类器联合可以进一步提高分类准确性的新观点,而模糊积分则是其中一种有效的联合方法。再对以模糊积分为融合工具的多神经网络分类器的联合文本分类以及多k NN分类器的联合文本分类从建立模型到如何应用于文本分类中进行了详细的阐述,并对这两种多分类器融合的文本分类的适用情况进行了一定探讨。本文所做的主要研究工作是选取BP神经网络分类器、RBF神经网络分类器和采用K-means算法的RBF神经网络分类器,分别利用Sugeno模糊积分和Choquet模糊积分作为融合算子,将多个神经网络文本分类器结合起来,又选取k NN分类器、类内均值k NN分类器及基于中心向量分类方法改进的k NN分类器,利用Sugeno模糊积分和Choquet模糊积分作为融合算子,将多个k NN分类器结合起来,以求得更加理想的中文文本分类结果。论文最后,运用算例将单个文本分类器各自的计算结果和多分类器融合的文本分类结果进行了对比,表明基于模糊积分的多分类器融合的文本分类方法比传统的单个文本分类器准确率有了一定的提高。通过本课题的研究,为中文文本分类算法的优化探索了一种新的思路。