一种有效的文本分类方法MDCC的实现及应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:shiguanglai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量的信息资源以文本形式存在,如何在海量信息中快速获得用户感兴趣的内容,是当前互联网环境下信息处理必须解决的问题。文本分类技术(Text Categorization,TC)是分析挖掘大量文本信息的有效途径之一。TC技术以计算机为工具,通过机器自动学习,使计算机具有对文本的自动分类功能;当任意输入一篇文本时,计算机能够根据已经掌握的知识,自动将该文本分类到某一类别中,从而帮助用户更快定位自己感兴趣的主题信息。文本特征主要由向量空间模型表示,模型中以文档中的词作为分类特征构造特征向量。由于文档中包含大量词语,很多词对于文本分类没有太大贡献,如全部保留会造成“维度成灾”的问题,因此,需要通过特征选择来解决特征向量维度较高的问题。TF-IDF、信息增益、卡方校验和互信息等方法都是目前常用的经典特征选择算法。传统的特征选择方法在分类过程中都存在一些不足,如TF-IDF算法无法将特征词与类别信息相结合,而信息增益、卡方校验方法却忽略了特征词在文本中的语义信息,这些特征选择方法中的不足,都会成为分类性能的影响因素。本文分析、对比了多种经典文本特征选择方法的特点,从结合特征词的类别特征和语义特征的角度出发,同时考虑特征词与多个类别之间的关系,提出了结合最大化差异和词类别贡献度(Max Difference Category Contribution,MDCC)的文本分类方法,该方法根据特征词在文本中的词频和不同类别中最大化差异值计算出词的权重,结合特征词与不同类别之间的关系,对文本特征表示方法进行了优化。本文的具体工作如下:1.提出一种结合最大化差异和类别贡献度的文本分类方法。本文将最大化差异应用于文本特征词选择,并根据词和类别之间的关系建立类别贡献度模型,二者结合应用于文本分类。该方法在特征选择过程中根据最大化差异选择文档中最重要且最具语义特征的词作为特征项,在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算出特征词的类别贡献度向量,最后累加文本中的特征词的特征向量,得出文本特征向量进行分类。通过在三个公开的语料库20Newsgroup,Reuters和WebKb上的对比实验表明,该方法在多类别文本分类器性能指标MircoF1和MarcoF1值上都有显著的提高。2.开发实现了一个基于多源数据的高校话题评论系统,以具体的系统实例验证了本文所提文本分类方法的有效性。本系统主要通过最大化差异(MD)的特征词选择方法与其他文本分类方法相结合分别实现了高效话题标签的自动生成、评论情感倾向分析和话题类别判定等功能。其中高校话题标签的自动生成使用最大化差异结合TF-IDF的算法实现;话题信息的类别判定则直接由MDCC算法实现;评论倾向分析功能使用MD算法选择特征构造特征向量后,通过朴素贝叶斯分类器进行情感判定实现。整个系统围绕MDCC算法对高校话题信息进行对方面挖掘,有效、实时、直观的展示了高校相关的话题信息。
其他文献
偶氮染料废水色度深、水量大、分布面广、水质变化大、有机毒物含量高、难生物降解,是很难处理的工业废水。现有的生物处理方法大多存在处理效率低、剩余污泥量大、水处理药
本论文以Ni2+掺杂ZnO-MgO-Al203-Si02(ZMAS)体系为研究对象,制备了以锌镁尖晶石固溶体为主晶相的透明微晶玻璃,研究了材料的热处理条件和光学性能。对CdO-MO-B2O3(M=Zn,Mg,Ni
量子纠缠是量子力学最显著的特征之一,它不仅可用于验证量子非局域性,同时也是量子信息科学领域的重要资源。多体和多能级量子纠缠具有丰富的结构特征,因而拥有一般的两体二
端部非重叠绕组的无铁芯永磁同步直线电机(Ironless Permanent Magnet Linear Synchronous Machine,ILPMLSM)因结构简单、推力波动小、响应速度快而广泛用于各种半导体设备、机床加工中心等精密加工场合,但推力密度低这一缺点同样明显。采用Halbach永磁阵列、非对称双层绕组的ILPMLSM(DWILPMLSM)不仅能够提高推力密度,而且也保持了结构简
移动应用会频繁使用用户的敏感信息,因此,Android设计者Google建议开发者在上传应用时发布隐私条例文档,使用户了解隐私信息如何被使用,从而更好的保护用户隐私。近期,许多研
目的:通过颅脑核磁共振体素形态学测量方法,分析不同程度阻塞性睡眠呼吸暂停低通气综合征患者脑灰质体积之间的差异。方法:选取2016年12月~2017年12月于青海大学附属医院睡眠
目的:利用大鼠原代神经细胞培养系统,采用转录组测序技术,观察非结合胆红素引起的神经细胞基因差异表达,揭示关键生物学过程或信号通路在胆红素脑病发病中的机理,丰富胆红素
目的通过探讨改进与标准的腹腔镜根治性前列腺切除术,对患者术后临床疗效及并发症结果进行比较分析,以期为今后临床上前列腺癌的外科治疗提供参考与经验。材料与方法本研究回
通信仿真系统中的仿真任务是一个CPU密集型的任务,当同时使用仿真系统的用户较多,并发进行的仿真量较大时,会对硬件的要求较高。为了满足仿真任务对计算资源的需求,一般有纵
目的:探讨外源性硫化氢对烧伤血清干预表皮细胞线粒体的影响。方法:获取新生1天的乳鼠的表皮细胞进行体外培养和细胞传代,将第3代的表皮细胞随机分为正常对照组、烧伤组和烧