基于不平衡数据的情感分类方法研究

被引量 : 0次 | 上传用户:vingf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着互联网的发展人们越来越习惯于在网络上表达自己的观点与情感。为了自动分析这些主观性文本,情感分析在自然语言处理研究领域得到了很大的关注。其中,文本情感分类是情感分析中研究最广泛的一个基本任务。然而,大部分已有的研究都假设在情感分类中,参与分类的正负类样本是平衡的,该假设和实际情况并不相符。在实际收集的产品评论语料中,我们发现正、负类样本的数目差距很大。样本分布的不平衡往往会使传统的机器学习分类方法在分类过程中严重偏向多样本类别,从而使分类的性能急剧下降。因此,不平衡数据的情感分类问题是一个迫切需要解决的实际问题。本文主要针对情感文本分类中的不平衡问题,开展了以下几方面的研究内容:首先,本文提出了一种基于样本集成的方法用于不平衡情感分类问题中。在基于监督学习的不平衡分类中,欠采样是一种常用的解决不平衡问题的方法。但是欠采样技术的一个很大的缺点是无法充分利用多类样本。因此,为了充分利用多类样本中的信息,我们通过在多类样本中进行多次欠采样的方式和少类样本一起构建基于样本集成学习的融合算法以解决情感分类中的不平衡问题,同时我们提出基于分类算法集成学习的方式来提高集成学习中基分类器的差异性,从而提高分类器融合的分类性能。其次,本文提出了一种基于中心向量的分类方法用于不平衡情感分类问题中。在情感分类建模时,用于表示文本的特征空间的维度非常高,而且每个特征向量的有效数据非常稀疏。因此,在不平衡情感分类中,除了存在样本不平衡问题外,在正负类中特征的分布也是非常不平衡。本文在基于聚类的欠采样框架下,提出基于中心向量平滑策略的分类方法用于同时解决不平衡情感分类中的特征不平衡和样本不平衡问题。最后,本文提出了基于半监督学习的不平衡情感分类方法,用于解决不平衡情感分类问题中的标注样本缺乏问题。本文的方法是一种基于动态随机特征子空间生成的协同训练方法,既能充分利用样本又能尽量避免分类器的冗余,能有效利用非标注样本提高不平衡情感分类的分类性能。
其他文献
伴随我国市场经济及发展建设日益提升,农村金融体系设计及制度保障作为国家发展及新农村建设需求重要战略,其重要性不言而喻。通过近年来大多研究发现,普惠制金融服务模式的
金属-有机框架材料由于具有比表面积高、热稳定性、化学稳定性好等优秀的性能,使其在分析化学领域表现出了诱人的应用前景。本文综述了两种金属-有机框架在分析化学中的应用研
学术界对教材概念的分歧较大 ,要正确理解教材 ,必须首先对不同概念进行辨析。教材的合理内涵是 :教育工作者为了方便教师教授、学生学习 ,最终有效促进学生发展而组织起来的
本文介绍了光纤陀螺的工作原理,并根据光纤陀螺的特点介绍了在各个领域的应用,阐述了光纤陀螺在国内外的发展现状,并指出了光纤陀螺的发展趋势。光纤陀螺仪应用激光及光导纤
近几年,我国全民都在倡导“和谐社会”,想和谐、建和谐、促和谐,而合唱则是体现社会和谐的艺术表现形式之一,因而国内合唱形式越来越得到社会大众的认可。随着人们生活水平的不断
财神是我国民间信仰中影响非常大的一类神灵,起源已经无法考证,但在众多民间神祗逐渐退却历史舞台的背景下,却依然受到追捧,这种现象背后有着深刻的文化内涵。财神传说随着财
在高等教育内部发展逻辑和外部社会需求的双重因素推动下,我国开始对大部分硕士专业学位研究生实行全日制培养。教育硕士专业学位作为专业学位的分支,其发展只有短短十余年,
现今很多发达国家,如日本和美国的“产学合作”,韩国的“订单式培养”,这些模式都有一个共同特点,就是实行学习与工作相互结合、学校与企业共同合作。高等职业教育培养学生的
测制西藏拉萨桑达乡第四系剖面,系统采集并分析植硅体样品,根据植硅体的形态分类及组合、温暖指数等特征,划分为5个植硅体组合带:Ⅰ为齿型-平滑棒型、石屑型、网脊块状,反映
为提高导弹机动指挥系统对电磁脉冲(EMP)的抗毁生存能力,探求了机动指挥系统可重组技术的概念、理论及其设计方法。提出了快速重组机动指挥系统的基本构架及其特征,研究了快