论文部分内容阅读
网络的快速发展极大地改变了人们表达自己观点与意见的途径和方式。尤其是随着电子商务的发展,包含消费者对产品或服务的主观态度的评论信息越来越多地出现在各种网站中,这些评论对消费者和生产厂商来说包含了很多重要的信息,其商业价值越来越明显。网络评论信息来源广泛,有时还夹杂在许多杂乱的帖子或者微博中,人们要找到相关的评论资源并从中抽取出情感信息,进而进行归纳总结是很困难的,因此自动化的情感分类技术应运而生。作为文本挖掘的一个重要分支,随着网络评论分析的应用价值不断突显,需求不断增加,情感分类已成为近年来的研究热点之一。然而,在现实中,需要进行情感分类的产品种类时常发生变化,而在进行情感分类时,常常会遇到大量没有标注的评论或者只有少部分评论被标注的情况,使得机器学习的分类效果不能令人满意,而通过人工标注又将耗费大量的人力物力,因此从稀少的评论数据甚至是大量的无标注评论数据中获取用户的情感态势,目前仍是一个尚待解决的问题。迁移学习旨在利用从其他任务学习到的知识来帮助解决目标任务,因此本文利用迁移学习策略,借助已知分类结果的其他产品领域的标注数据来辅助解决新产品领域的中文评论情感分类问题。首先,针对待分类的目标产品领域没有标注数据的情况,借鉴人们在判断新词的情感倾向时,一般会参考与其具有相似语义的词语的情感倾向的方法,提出基于语义的特征迁移策略。通过源领域特征项与目标领域特征项之间的语义相似度和语义相关度,将源领域的特征项的类别指示作用迁移到目标领域,然后应用类别空间模型进行类别划分。其次利用样本迁移的策略,解决目标领域仅存在少量标注数据的评论情感分类问题。应用样本权重及样本分类置信度的双重选择策略从源领域数据中挑选出与目标领域数据相对接近的数据辅助训练分类器,均衡积极类及消极类的分类精度,使得分类结果更具参考价值。论文最后对研究工作进行了总结,并为以后的研究提出了一些方向。