论文部分内容阅读
随着互联网的快速发展,越来越多的用户开始网上购物,更多的商品评论数据由此产生,反过来这些数据也为用户提供了参考价值。但是评论数据往往数量庞大,用户很难从中抽取出有用的信息,因此如何高效的对商品评论数据进行分析和情感提取是关键的问题。该论文提出了基于电商网站商品评论数据的情感分析模型,可以准确的识别出用户对商品的褒贬评价,为用户提供参考信息,也为商家提供反馈信息,同时也是电商网站在利用推荐算法进行个性化推荐的参考指标。该论文首先介绍了该课题的研究背景、国内外研究现状、研究意义和相关的技术。然后提出了一种无监督的情感分析新模型,该模型在原有主题模型基础上引入情感因子变量,并结合层次聚类对结果进行二次聚类,该模型利用电商网站评论数据对应的情感-主题-词的分布情况以及在不同情感下对应不同主题的词的权重值。该论文主要完成了下面的几项工作:(1)数据去重和清洗,通过对评论数据进行去重去噪声处理,获取比较纯净的文本。(2)建立词向量模型,然后通过词向量模型获取评论数据中的词的同义或近义词,然后对其进行扩展匹配,解决评论数据稀疏的问题。(3)建模和模型训练,利用本文提出的一种情感分析模型对评论数据进行建模,并且利用Gibbs采样算法对模型进行求解,得到评论-情感-主题-词的分布情况,然后利用层次聚类算法合并相同或者相似的主题。(4)情感极性值计算和情感倾向判断,基于该模型的结果,通过情感词典提取评论中的情感词,并结合四种规则对情感词的极性和极性值进行确定和计算,然后综合评论数据中的情感词对其情感极性进行计算,情感极性为正则为加,否则为减,得到每一条评论的情感分数,根据情感分数的正负进行评论的正负划分,然后根据每一条评论的结果对商品本身的情感分数进行计算,获取商品的情感倾向值。(5)实验验证和结果分析,通过设计实验以及对比实验,利用已有的数据集进行测试,对实验结果进行比较和分析,结果表明该模型可以准确的判断用户评论的情感倾向和商品的情感倾向。