【摘 要】
:
文本情感分类是自然语言处理领域的一个子任务,随着用户生成内容的爆发性增长,已经成为当前研究的一个热点。用户生成内容增长的不仅是数据的规模,其涉及的领域也越来越广,受制于分类器的泛化能力,单领域的情感分类器已经不能满足现在的需求,多领域情感分类成为文本情感分析的突破方向。文本的特征化表示是文本情感分类过程中的一个重要步骤,Word2Vec模型是目前使用最广泛的文本特征化表示方法。Word2Vec模型
论文部分内容阅读
文本情感分类是自然语言处理领域的一个子任务,随着用户生成内容的爆发性增长,已经成为当前研究的一个热点。用户生成内容增长的不仅是数据的规模,其涉及的领域也越来越广,受制于分类器的泛化能力,单领域的情感分类器已经不能满足现在的需求,多领域情感分类成为文本情感分析的突破方向。文本的特征化表示是文本情感分类过程中的一个重要步骤,Word2Vec模型是目前使用最广泛的文本特征化表示方法。Word2Vec模型通过上下文定义词向量,向量维度远低于其它表示方法,因此能有效地降低训练时间和系统的开销。但是,文本的情感信息主要来源于文本的情感词,而Word2Vec模型训练过程中平等考虑所有单词,使得相反极性情感词向量相似度过高,容易产生混淆。针对该问题,本文提出了一种基于情感字典Senti Word Net的Word2Vec改进模型,通过Senti Word Net把单词划分为积极情感词,消极情感词和客观词,依据其情感极性和强度训练情感分量,扩展原有的词向量,优化了词向量的情感表达能力,更有利于文本的情感分类。现有的多领域文本情感分类方法大多依赖于使用大量的训练集去提取领域文本的底层特征分布,构建相似度图,通过特征的迁移实现分类器的域适应。这类方法不仅构造的域适应模型结构复杂,而且迁移性能的好坏过度依赖于文本数据底层情感特征分布的相似度。针对这些问题,本文提出了一个双层的多领域文本情感分类模型。通过构建两个情感收集模块提取训练集的通用情感知识和特定于领域的情感知识,同时使用基于逻辑回归的情感极性判定模块把目标领域的特征向量映射到训练领域的特征空间,实现多领域文本的跨领域情感分类。本文提出的模型针对测试数据领域标签是否清晰,提供了有无调优集参与情况下的两种训练方案,少量的标记目标领域数据能有效的提高模型跨领域情感分类的性能。情感收集模块通过共享同类分类器可以简化模型的训练过程,能快速实现情感分类器的跨领域迁移。通过使用支持向量机算法实例化本文提出的模型,在Amazon-14商品评论数据集、Twitter推文数据集、Yelp点评数据集和IMDB影评数据集上对本文提出的模型进行评估。实验结果表明本文提出的双层多领域情感分类模型能有效地提高多领域文本的情感分类性能。
其他文献
磷系阻燃剂(phosphate flame retardants,PFRs)作为溴代阻燃剂(brominated flame retardants,BFRs)的主要替代品之一,近年来在世界范围内的需求量与生产量大幅增加。PFRs不仅在多
由于CCD相机具有灵敏度高、失真小、噪声低等特点,其应用领域日益广泛。光谱响应曲线是CCD相机的重要的技术参数之一,也是器件甄选﹑应用系统设计与性能评估的重要参考。因此,
从跟交流配电网比较方面来看,直流配网它具有非常多的独特优点,比如它的输送容量一般很大、它的电能质量一般较高、它的换流损耗一般较低、它一般不会出现系统同步稳定性的问题以及还能支持各种分布式电源接入等,不仅具有经济性同时其可靠性也比较高,因此,行业社会越来越多的关注开始倾向于直流配电网的建设发展。但由于直流配电系统在系统发生故障时,往往伴随着过电压和过电流,故障需要有效及时的被切除,直流断路器在直流配
列车脱轨是影响铁路安全运营的一个重要因素,自铁路诞生以来,就一直是学术界的一个热门课题。引起列车脱轨的原因主要是轨道不平顺性发生改变,即超过了列车脱轨的不平顺限值
银(Ag)纳米颗粒及银合金薄膜因具有显著的表面等离子体共振特性,已成为制备表面增强拉曼散射(Surface Enhanced Raman Scattering,SERS)基底的首选材料,广泛应用到生物医学、食品安全、环境监测、材料科学等领域。如何制备出性能良好、结构均匀且价格合适的基底是SERS技术领域最为关键的研究课题之一。论文采用磁控溅射方法在三种基体上制备了Ag颗粒/Ag-Zr合金膜复合结构
近年来建筑学和结构学的隔阂渐深,又逢建筑行业解构主义盛行,诸多建筑都在设计出形式新奇的建筑形态后再设计建筑结构支撑起形态,结构本身具有的形态意义被忽视。同时随着全
本文主要是以西安市不同功能区作为研究区域,分别对采暖期和非采暖期,深度为(0-20cm)和深度为(20-50cm)土壤中持久性有机污染物多环芳烃(PAHs)和黑碳的含量进行测定,分析西安
目的:探讨支气管扩张症急性加重期患者的中医体质分布特点,研究支气管扩张症中医体质与影响支气管扩张症严重程度的临床指标的关系,为临床运用中医理论治疗支气管扩张症提供新的思路。方法:采用临床流行病学调查方法,收集2019年1月至2020年1月于广东省中医院芳村医院呼吸内科住院的125例支气管扩张症急性加重期患者,收集患者的一般资料及与其严重程度相关的临床资料,对125例患者进行体质问卷调查并根据《中医
二化螟Chilo suppressalis和稻纵卷叶螟Cnaphalocrocis medinalis是亚洲地区最重要的两种水稻害虫,对我国及东南亚地区的水稻生产造成严重的经济损失。长期以来,对二化螟和稻
随着市场经济的蓬勃发展,维修服务采购是企业实际生产运营的重要环节。目前,国内外学者对企业维修服务采购的关注较少,研究文献不多,缺少相对成熟及实用性强的维修服务供应商的相关评价体系。基于对G公司当前的维修服务供应商评价指标的分析来看,该指标体系并不健全和成熟,部分指标难以量化,过于单一,且存在评价指标范围过于宽泛等不足。另外,评价过程中不同部门专家意见主观性强,且没有清晰的权重算法,所选择的指标体系