论文部分内容阅读
互联网技术的快速进步,使得电子商务网站得以飞速发展,越来越多的人们通过网络平台来获取商品评论信息,并根据评论信息来指导消费。对这些以指数级增长的评论信息,若能对其进行挖掘及相应的分析,辨别出其中的情感倾向,则不仅可了解用户对商品的满意度及意见,而且也可为商家的决策提供参考,进而提高商品质量及服务态度。本文首先介绍了中文文本情感分类流程及相关核心技术,然后分别从商品评论的获取、商品评论情感分析方法两个方面进行了相关分析与研究。其中,对商品评论的情感分析,本文分别采用了基于机器学习的方法及基于情感词典的方法。对评论进行情感分析,首先需要从相应购物平台中获取相应的语料数据,不同商品类别的评论通常集中在某一板块,且网页呈现出高度的结构化。基于此,本文使用了网络爬虫对网页进行实时处理并获取评论信息,从而得到供情感分类用的评论数据。然后,本文分别基于两种不同的思想对评论进行情感分析。在基于情感词典的方法中,构建了一个较为完整的面向商品评论信息的情感词典,其中,基础情感词典采用知网发布的“情感分析用词语集”,而网络情感词典则主要基于已有的不完整的网络词典,通过评论信息来收集并进行标注,以此来扩充该网络情感词典。并通过SO-PMI算法对词语的情感倾向性进行计算,以此对情感词典进行扩充。最后,根据短语结构,对评论信息中的情感特征词进行情感倾向加权求和,从而获得整个评论的情感倾向及强度。在基于机器学习的方法中,构建了贝叶斯分类模型,并提出了一种混合特征提取方法,有利于分类特征的保留,并对冗余特征进行删除,进而提高情感分类效果。最后,从天猫上采集数码、服饰、食品、图书四个类别的评论信息作为实验测试语料,对本文中的两种方法进行了对比实验分析。实验结果表明两种方法均是可行的,而基于机器学习的方法在分类效果上要略优于基于情感词典的方法。