论文部分内容阅读
海量的信息资源以文本形式存在,如何在海量信息中快速获得用户感兴趣的内容,是当前互联网环境下信息处理必须解决的问题。文本分类技术(Text Categorization,TC)是分析挖掘大量文本信息的有效途径之一。TC技术以计算机为工具,通过机器自动学习,使计算机具有对文本的自动分类功能;当任意输入一篇文本时,计算机能够根据已经掌握的知识,自动将该文本分类到某一类别中,从而帮助用户更快定位自己感兴趣的主题信息。文本特征主要由向量空间模型表示,模型中以文档中的词作为分类特征构造特征向量。由于文档中包含大量词语,很多词对于文本分类没有太大贡献,如全部保留会造成“维度成灾”的问题,因此,需要通过特征选择来解决特征向量维度较高的问题。TF-IDF、信息增益、卡方校验和互信息等方法都是目前常用的经典特征选择算法。传统的特征选择方法在分类过程中都存在一些不足,如TF-IDF算法无法将特征词与类别信息相结合,而信息增益、卡方校验方法却忽略了特征词在文本中的语义信息,这些特征选择方法中的不足,都会成为分类性能的影响因素。本文分析、对比了多种经典文本特征选择方法的特点,从结合特征词的类别特征和语义特征的角度出发,同时考虑特征词与多个类别之间的关系,提出了结合最大化差异和词类别贡献度(Max Difference Category Contribution,MDCC)的文本分类方法,该方法根据特征词在文本中的词频和不同类别中最大化差异值计算出词的权重,结合特征词与不同类别之间的关系,对文本特征表示方法进行了优化。本文的具体工作如下:1.提出一种结合最大化差异和类别贡献度的文本分类方法。本文将最大化差异应用于文本特征词选择,并根据词和类别之间的关系建立类别贡献度模型,二者结合应用于文本分类。该方法在特征选择过程中根据最大化差异选择文档中最重要且最具语义特征的词作为特征项,在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算出特征词的类别贡献度向量,最后累加文本中的特征词的特征向量,得出文本特征向量进行分类。通过在三个公开的语料库20Newsgroup,Reuters和WebKb上的对比实验表明,该方法在多类别文本分类器性能指标MircoF1和MarcoF1值上都有显著的提高。2.开发实现了一个基于多源数据的高校话题评论系统,以具体的系统实例验证了本文所提文本分类方法的有效性。本系统主要通过最大化差异(MD)的特征词选择方法与其他文本分类方法相结合分别实现了高效话题标签的自动生成、评论情感倾向分析和话题类别判定等功能。其中高校话题标签的自动生成使用最大化差异结合TF-IDF的算法实现;话题信息的类别判定则直接由MDCC算法实现;评论倾向分析功能使用MD算法选择特征构造特征向量后,通过朴素贝叶斯分类器进行情感判定实现。整个系统围绕MDCC算法对高校话题信息进行对方面挖掘,有效、实时、直观的展示了高校相关的话题信息。