文本分类及其特征降维研究

被引量 : 0次 | 上传用户:bianhao9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,特别是Internet的普及,信息容量呈爆炸性趋势增长,人们迫切需要一种技术高效地组织和管理信息。文本分类作为组织和处理大量文本信息的关键技术,可以在较大程度上解决信息杂乱的问题,对于信息的高效管理和有效利用都具有极其现实的意义,成为了数据挖掘领域中的一个重要的研究方向。目前,文本分类技术已经在多个领域得到了广泛的应用,并且取得了较大的进展。例如信息过滤、信息检索、词义辨析、新闻分发、邮件分类、数字图书馆和文本数据库等,此外,越来越多的学者也投入到文本分类研究中,出现了许多新的文本分类方法和技术。但是,文本分类也遇到了前所未有的挑战。在理论和实践上,文本分类的研究仍存在很大的发展空间。论文介绍了文本分类的研究背景、研究意义和国内外研究现状,并在分析和总结文本预处理、文本表示模型、特征降维、特征权重、分类方法和分类性能评价的基础上,对文本分类器及其特征降维进行了深入的研究。本文的主要创新研究工作如下:(1)提出了一种基于云模型的文本分类器(CMTC)。首先,引入平滑因子σ参数以解决因稀疏特征空间而造成普通云分类器无法在文本分类中直接使用的问题;然后通过实验分析了σ和文本分类性能之间的关系;最后选取合适的σ参数。实验结果表明,在Reuters10(Reuters-21578的一个子集)数据集上,CMTC比SVM和KNN具有更好的处理能力,特别是宏平均F1指标的最大值比KNN和SVM分别提高了5.06%和6.19%。在复旦大学提供的语料上,CMTC的分类性能与KNN不相上下,有时甚至比KNN更好。另外,CMTC的分类性能优于SVM。(2)提出了一种基于逆云模型的CMFS特征选择方法。首先根据逆云模型理论建立训练集各属性在各类别上的模型,然后根据所建模型计算每个属性的类间差别,最后选取类间差别大的属性作为分类特征。另外还考虑了特征频率。实验结果表明,无论采用NaiveBayes还是SVM分类,CMFS分类性能接近信息增益的分类性能,并优于文本证据权重和互信息。(3)提出了一种面向不平衡文本的强类别相关特征选择方法。首先,在分析传统特征选择方法构造的四项基本信息元素的基础上提出一种强类别信息的度量标准,并提出一种适用于不平衡文本的强类别相关的特征选择方法,该方法综合考虑了类别信息和词频,分别用于提高少数类和多数类的分类性能。实验结果表明,采用SVM分类时,在特征数为100时分类效果最好,此时Micro_F1分别比IG,CHI和DFICF提高2.12%,1.91%和1.91%,Macro_F1分别比IG,CHI和DFICF提高了1.21%,1.55%和1.14%。采用朴素贝叶斯分类器分类时,在特征数为300时分类效果最好,此时Micro_Fl分别比IG、CHI和DFICF提高了1.08%,1.76%和0.79%,Macro_F1分别比IG、CHI和DFICF提高了0.75%、2.85%和0.41%。(4)提出了一种基于Sprinkling的特征抽取方法。首先,考虑了特征的局部权重和全局权重。其次,考虑了样本的隶属度信息,样本的隶属度信息用降半哥西分布定义。再次,文档集中的每个类别用一个辅特征(人工增加的特征)映射,并通过调节辅特征权重来调节同类单词之间的紧密度。此外还讨论了辅特征权重对分类性能的影响。实验结果表明,在辅特征权重为2时分类精度达到最大值94.22%,比原始Sprinkling方法提高1.71%。
其他文献
经济伦理是指在经济活动中形成的各种伦理关系以及人们协调处理这些关系的伦理道德原则和规范的总和。不同的经济基础、社会制度和文化背景,造成中西经济伦理的分殊;中西传统经
<正> 1.前言制浆造纸工业可谓之是一个消耗水、木材和能量多的消耗型的工业。在各项环境保护对策中,制浆造纸工业的水质污染防治对策是最重要的一项。在论述水质污染防治对策
我国海关的内控工作,为提升海关管理水平,规范业务运行,提高监管效能,做出了积极贡献,但仍存在多头管理、职能重复,思路不清、监控不准,配合不紧,外行监督内行等诸多问题,使
信访作为我国政治沟通、权力监督和权利救济的一种重要政治制度,其存在和发展经历了漫长的历史过程,在中国形成了其深厚的社会政治和文化意识根基。从其建国以来的发展历程来看
<正>一、孟子的"理想国"历史学家黄仁宇在《孔孟》中说":‘孟子序诗书,述仲尼之意’。今人冯友兰,也把孔子比作苏格拉底,把孟子比作柏拉图"。是的,孟子确实是中国的"柏拉图",
<正>小学生作文,我们称之为习作,它并非简单地把头脑中储存的语言材料搬到书面上来,而是要依靠比较完善的内部语言,经过材料选择、主题确定、谋篇布局、遣词造句等一系列的复
<正>一、积累整合———戏剧阅读的前奏前奏之一:戏剧知识。本单元涉及两种戏剧形式,一是元杂剧,一是话剧。学生在阅读《窦娥冤》和《长亭送别》时,往往会有疑问:文章
<正>一、以辞明诵1.介绍辞的特点。辞,是介于散文与诗歌之间的一种文体。这种文体以四、六句为主,富有抒情的浪漫气息,很像诗,但押韵和句式较诗自由,比散文整齐,句中多以"兮"
随着全球经济一体化、日趋激烈的国内外市场竞争以及各个部门日趋完善的协作与分工等诸多因素都在不断对企业的经理层提出新的挑战和更高的要求,这就需要经理人员做好以团队为
<正>案例一【教学目标】1.研读文本,理清文脉,理解孟子的"王道"主张。2.合作探究,涵泳体味,分析人物的观点和情感;赏析孟子逻辑严谨、气势酣畅的论辩艺术;认识孟子思想的现代