基于迁移学习的中文评论情感分类方法研究

被引量 : 0次 | 上传用户:xianwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的快速发展极大地改变了人们表达自己观点与意见的途径和方式。尤其是随着电子商务的发展,包含消费者对产品或服务的主观态度的评论信息越来越多地出现在各种网站中,这些评论对消费者和生产厂商来说包含了很多重要的信息,其商业价值越来越明显。网络评论信息来源广泛,有时还夹杂在许多杂乱的帖子或者微博中,人们要找到相关的评论资源并从中抽取出情感信息,进而进行归纳总结是很困难的,因此自动化的情感分类技术应运而生。作为文本挖掘的一个重要分支,随着网络评论分析的应用价值不断突显,需求不断增加,情感分类已成为近年来的研究热点之一。然而,在现实中,需要进行情感分类的产品种类时常发生变化,而在进行情感分类时,常常会遇到大量没有标注的评论或者只有少部分评论被标注的情况,使得机器学习的分类效果不能令人满意,而通过人工标注又将耗费大量的人力物力,因此从稀少的评论数据甚至是大量的无标注评论数据中获取用户的情感态势,目前仍是一个尚待解决的问题。迁移学习旨在利用从其他任务学习到的知识来帮助解决目标任务,因此本文利用迁移学习策略,借助已知分类结果的其他产品领域的标注数据来辅助解决新产品领域的中文评论情感分类问题。首先,针对待分类的目标产品领域没有标注数据的情况,借鉴人们在判断新词的情感倾向时,一般会参考与其具有相似语义的词语的情感倾向的方法,提出基于语义的特征迁移策略。通过源领域特征项与目标领域特征项之间的语义相似度和语义相关度,将源领域的特征项的类别指示作用迁移到目标领域,然后应用类别空间模型进行类别划分。其次利用样本迁移的策略,解决目标领域仅存在少量标注数据的评论情感分类问题。应用样本权重及样本分类置信度的双重选择策略从源领域数据中挑选出与目标领域数据相对接近的数据辅助训练分类器,均衡积极类及消极类的分类精度,使得分类结果更具参考价值。论文最后对研究工作进行了总结,并为以后的研究提出了一些方向。
其他文献
股份制商业银行是我国金融市场中的重要组成部分,对我国的企业发展、活跃金融市场、稳定金融市场、金融体制改革等方面有着重要的作用。现分析了股份制银行发展现状及战略转
<正> [病例62] 患者36岁,男,初诊于1974年6月。病历:1973年6月起血压高,最高时为230/140,服降压剂但血压不容易降下来,近来停服。初诊时血压190/120,以前没有降到这以下的。
<正>紫燕百味鸡是一家"有原则"的企业,从发展之初就坚持走直营模式。直营能让企业的品质更加稳定和安全,但却让规模化扩张背上不小的资金压力。相比煌上煌等已获风投的熟食企
<正>随着国家电网公司"三集五大"改革的深入推进,县供电公司将农电10千伏配网运维检修业务从供电所分离,分区域成立"配电队",实行高压专业化管理。营配分离后,为促进营配协同
十九世纪中后期,清王朝由盛转衰,社会危机重重,一派衰世、末世之景象。爱国知识分子魏源,提出了一系列志在救国救民的改革主张。他从中国传统文化著作之中,发掘其改革所需的理论支
根据1型糖尿病发病机制,可分为自身免疫性(1A型)和特发性(1B型)两种类型。1A型患者体内有多种胰岛自身抗体存在,主要包括胰岛细胞抗体(ICA)、胰岛素自身抗体(IAA)、谷氨酸脱
<正> 小儿脏腑幼嫩,胃肠消化吸收功能差,极易为饮食所伤。如果饮食不加节制,恣食生冷甘肥,就会损伤脾胃,使运化失司,而发生食积。患儿表现为不思饮食,食而不化,腹部胀满,嗳腐
期刊
我国中小企业面临的贷款困境严重制约了其发展 ,本文从与传统的解决中小企业贷款困境的方法完全不同的全新视角出发 ,拟通过开发一种中小企业贷款信用保险的新险种来降低中小
<正>有形产品可以用图纸、标准对其质量特性进行描述,对于服务这种特殊产品来说,因其具有无形性、可变性的特征,很难进行具体的说明,质量的评价在很大程度上还依赖于人们的感