论文部分内容阅读
互联网的便捷、共享、普惠等特性使得网民数量与日俱增,网络购物成为人们日常生活中的经常性行为,用户通过互联网购买产品的同时可以发表评论来分享自己的购物体验或对于产品和服务的满意度,这些产品评论信息中包含着丰富的情感数据和商业价值,不仅可以为潜在的消费者提供参考意见,帮助他们作出更加理性的购买决策,还能为产品的生产者和销售者提供产品的反馈信息,有利于他们根据市场反馈了解所提供的产品或服务是否能满足市场需求,以便作出相应的完善方案。互联网上的产品评论信息数量庞大并且呈现出一种激增的态势,这些产品评论信息的挖掘和分析单靠人工是不可能实现的,情感倾向性分析技术应运而生。随着产品多样性的发展,产品评论涉及到汽车、手机、酒店等多个领域,跨领域情感倾向性分析技术能够实现利用源领域数据的情感标签对目标领域数据进行情感倾向性分析。然而,不同领域的数据由于收集方式和途径不同,通常服从不同的数据分布,对传统的情感分类方法造成了一定挑战。针对这个问题,本文提出两种跨领域情感倾向性分析方法:一种是基于可信标签扩展传递的词语级跨领域倾向性分析方法,另一种是基于组合框架模型的跨领域产品评论情感倾向性分析方法,下面分别予以介绍。基于可信标签扩展传递的词语级跨领域倾向性分析方法是解决词语级别的跨领域情感倾向性分析问题。首先选取枢纽特征集作为情感种子词集,种子词与目标领域待标注词之间按照相似度进行标签传递,计算所分配的标签的可信度,将具有可信标签的词移入情感种子词集,达到种子词集扩展的目的,最终计算出目标领域词的情感分,然后利用其先验情感分进行优化,最终实现词语级跨领域倾向性分析。基于组合框架模型的跨领域产品评论情感倾向性分析方法是对产品评论进行跨领域情感倾向性分析。结合词典规则情感分类方法和机器学习情感分类方法的不同特点,构建一个组合框架模型将词典规则分类器和机器学习分类器进行有机融合,根据标签一致性原则,将两种分类器分类结果一致的部分目标领域数据迭代加入训练集训练新的分类器,对其他待标注数据进行反复测试,直至迭代结束。本文在多个产品评论领域交叉进行实验以验证两种跨领域情感倾向性分析方法的可行性,结果表明本文提出的基于可信标签扩展传递的跨领域倾向性分析方法对于词语级别的跨领域情感倾向性分析以及领域情感词典的扩展具有重要作用,实验也证明了本文提出的组合框架模型能够在一定程度上提高跨领域产品评论情感倾向性分析的精度。