面向不均衡数据和情感词典构建的特征选择方法研究

被引量 : 2次 | 上传用户:luo665
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科技的飞速发展,人类世界已进入大数据时代,大量有价值的信息被淹没在数据的汪洋中,所以发现和挖掘这些有用信息一直是近年来人工智能领域中一个备受关注的研究热点。作为一种关键的文本信息处理技术,文本自动分类方法得到了人们深入的研究和广泛的推广。但是,随着信息量的迅速膨胀和各种新词的不断涌现,文本分类的特征空间维数越来越高,已经对分类造成了严重影响。为了更好地处理文本信息,需要对特征空间进行有效的维数约简以去除大量的冗余特征和噪音特征。于是,特征选择技术作为一种有效的降维方法,日益引起研究人员的广泛关注。本文以特征选择技术为主线开展了两个具有针对性的研究工作,一是研究了适用于不均衡数据集的特征选择方法,二是将特征选择技术拓展应用于情感词典构建以解决情感词的权重赋值问题。针对不均衡数据集,本文提出了一种基于类别加权和方差统计的联合特征选择方法。首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征。其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征。最后,将两种策略相融合,实现了一种联合特征选择的新算法。在Reuters-21578和复旦大学语料两个不均衡语料上的实验都表明了该算法的有效性,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法。在文本情感分析中,情感词典构建至关重要。目前已有的研究主要停留在词语极性判别,对情感词权重赋值的研究较少,且存在的方法都需要通过人工辅助的方法选取基准词。针对此问题,本文提出了一种基于特征选择技术的情感词权重计算方法。首先提出了词语情感权重与文本情感倾向的相关假设,然后针对情感分类对IG和CHI算法作了一些改进,将特征选择技术应用于情感词权重计算。实验结果表明,文本提出的方法不仅能实现情感词权重的自动计算,而且将计算所得的带情感权重的情感词库用于文本情感分类,能够有效提升分类精度。
其他文献
统一战线陪伴中国走过半个多世纪的峥嵘岁月,在新时代涡轮下焕发出更加璀璨的生机与活力。党的十九大报告进一步强调我们要巩固和发展爱国统一战线。高校统战工作作为我党统
最近几年,由于安卓开源系统的出现和智能手机的不断发展,国内涌现出100余家智能手机品牌。但是,不同企业的商业模式并不相同,内部各要素之间的相互影响方式也不相同。文章在借鉴
课程资源就是形成课程的要素来源以及实施课程的必要而直接的条件。在思想政治课堂教学中,面对丰富的课程资源如何加以开发和利用,会直接影响到学生的学习兴趣、教学目标的实
当前我国政府公共管理责任机制存在着责任分配不清、责任实现无力、责任追究不力等问题。这既有责任虚空、政府职能定位不准确等政府体制层面的原因,也有分类管理不科学、沟
利用矿区2002年、2006年两个年份的遥感影像,分析矿区土地利用空间结构,以此将土地利用类型分为无破坏、已破坏已复垦、已破坏待复垦、待破坏待复垦和其他类型5种类型。针对目
在提高系统性能方面,SMP结构计算机已经成为现代计算机技术发展的潮流和趋势,因此急需构建能协调多处理器并发活动并维护系统一致性的SMP操作系统来替代原有的单处理器操作系统
随着国家文物局一系列有关文物保护修复工作规范的制订及颁布,再加上Adobe Photoshop软件简单易学的特性,使其在文物保护修复工作中广泛应用。Adobe Photoshop软件在文物保护
《茶馆》作为老舍先生的一部现实主义力作,通过对旧中国半个世纪风云变幻的描绘,埋葬了三个可诅咒的时代。这是一部悲剧,但作者独具的幽默特征和喜剧品格却在作品中得到充分
目的观察甘露醇+地塞米松治疗甲状腺术后综合征的临床疗效。方法选取我院2016年10月~2017年12月收治的92例甲状腺术后综合征患者,随机分组分为观察组(n=46)、对照组(n=46)。