论文部分内容阅读
随着信息技术的迅猛发展,特别是Internet的普及,信息容量呈爆炸性趋势增长,人们迫切需要一种技术高效地组织和管理信息。文本分类作为组织和处理大量文本信息的关键技术,可以在较大程度上解决信息杂乱的问题,对于信息的高效管理和有效利用都具有极其现实的意义,成为了数据挖掘领域中的一个重要的研究方向。目前,文本分类技术已经在多个领域得到了广泛的应用,并且取得了较大的进展。例如信息过滤、信息检索、词义辨析、新闻分发、邮件分类、数字图书馆和文本数据库等,此外,越来越多的学者也投入到文本分类研究中,出现了许多新的文本分类方法和技术。但是,文本分类也遇到了前所未有的挑战。在理论和实践上,文本分类的研究仍存在很大的发展空间。论文介绍了文本分类的研究背景、研究意义和国内外研究现状,并在分析和总结文本预处理、文本表示模型、特征降维、特征权重、分类方法和分类性能评价的基础上,对文本分类器及其特征降维进行了深入的研究。本文的主要创新研究工作如下:(1)提出了一种基于云模型的文本分类器(CMTC)。首先,引入平滑因子σ参数以解决因稀疏特征空间而造成普通云分类器无法在文本分类中直接使用的问题;然后通过实验分析了σ和文本分类性能之间的关系;最后选取合适的σ参数。实验结果表明,在Reuters10(Reuters-21578的一个子集)数据集上,CMTC比SVM和KNN具有更好的处理能力,特别是宏平均F1指标的最大值比KNN和SVM分别提高了5.06%和6.19%。在复旦大学提供的语料上,CMTC的分类性能与KNN不相上下,有时甚至比KNN更好。另外,CMTC的分类性能优于SVM。(2)提出了一种基于逆云模型的CMFS特征选择方法。首先根据逆云模型理论建立训练集各属性在各类别上的模型,然后根据所建模型计算每个属性的类间差别,最后选取类间差别大的属性作为分类特征。另外还考虑了特征频率。实验结果表明,无论采用NaiveBayes还是SVM分类,CMFS分类性能接近信息增益的分类性能,并优于文本证据权重和互信息。(3)提出了一种面向不平衡文本的强类别相关特征选择方法。首先,在分析传统特征选择方法构造的四项基本信息元素的基础上提出一种强类别信息的度量标准,并提出一种适用于不平衡文本的强类别相关的特征选择方法,该方法综合考虑了类别信息和词频,分别用于提高少数类和多数类的分类性能。实验结果表明,采用SVM分类时,在特征数为100时分类效果最好,此时Micro_F1分别比IG,CHI和DFICF提高2.12%,1.91%和1.91%,Macro_F1分别比IG,CHI和DFICF提高了1.21%,1.55%和1.14%。采用朴素贝叶斯分类器分类时,在特征数为300时分类效果最好,此时Micro_Fl分别比IG、CHI和DFICF提高了1.08%,1.76%和0.79%,Macro_F1分别比IG、CHI和DFICF提高了0.75%、2.85%和0.41%。(4)提出了一种基于Sprinkling的特征抽取方法。首先,考虑了特征的局部权重和全局权重。其次,考虑了样本的隶属度信息,样本的隶属度信息用降半哥西分布定义。再次,文档集中的每个类别用一个辅特征(人工增加的特征)映射,并通过调节辅特征权重来调节同类单词之间的紧密度。此外还讨论了辅特征权重对分类性能的影响。实验结果表明,在辅特征权重为2时分类精度达到最大值94.22%,比原始Sprinkling方法提高1.71%。