论文部分内容阅读
随着现代科技的飞速发展,人类世界已进入大数据时代,大量有价值的信息被淹没在数据的汪洋中,所以发现和挖掘这些有用信息一直是近年来人工智能领域中一个备受关注的研究热点。作为一种关键的文本信息处理技术,文本自动分类方法得到了人们深入的研究和广泛的推广。但是,随着信息量的迅速膨胀和各种新词的不断涌现,文本分类的特征空间维数越来越高,已经对分类造成了严重影响。为了更好地处理文本信息,需要对特征空间进行有效的维数约简以去除大量的冗余特征和噪音特征。于是,特征选择技术作为一种有效的降维方法,日益引起研究人员的广泛关注。本文以特征选择技术为主线开展了两个具有针对性的研究工作,一是研究了适用于不均衡数据集的特征选择方法,二是将特征选择技术拓展应用于情感词典构建以解决情感词的权重赋值问题。针对不均衡数据集,本文提出了一种基于类别加权和方差统计的联合特征选择方法。首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征。其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征。最后,将两种策略相融合,实现了一种联合特征选择的新算法。在Reuters-21578和复旦大学语料两个不均衡语料上的实验都表明了该算法的有效性,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法。在文本情感分析中,情感词典构建至关重要。目前已有的研究主要停留在词语极性判别,对情感词权重赋值的研究较少,且存在的方法都需要通过人工辅助的方法选取基准词。针对此问题,本文提出了一种基于特征选择技术的情感词权重计算方法。首先提出了词语情感权重与文本情感倾向的相关假设,然后针对情感分类对IG和CHI算法作了一些改进,将特征选择技术应用于情感词权重计算。实验结果表明,文本提出的方法不仅能实现情感词权重的自动计算,而且将计算所得的带情感权重的情感词库用于文本情感分类,能够有效提升分类精度。