论文部分内容阅读
随着互联网的发展,消费者越来越热衷于通过博客、点评网站等渠道分享关于各种品牌、产品以及服务的购买心得,由此产生的网络口碑会直接影响其他消费者的购买决策。一方面,积极正面的口碑可以为企业吸引更多的客户,带来更大的利润;另一方面,过多的负面口碑会降低企业的信誉度,造成客户的流失。因此,对企业网络口碑进行情感分类,分析消费者的情感倾向,不仅有助于企业对负面口碑作出及时的反应,制定有效的应对策略;同时,通过对这些口碑文本细粒度的挖掘分析,还可以发现其中的商业价值,将其应用到产品个性化推荐,用户兴趣发掘等多个方面。本文以Web文本挖掘技术为基础,以情感分析技术为主线,研究了Web文本数据爬取,中文切词分词,停用词过滤等文本采集与预处理的关键技术;并在此基础上研究了特征选择方法及其对情感分类的影响;然后基于情感词典构建了企业口碑倾向性计算模型,并用于酒店口碑情感分类的实证;接着利用K最邻近(KNN)算法构建情感分类器,实现细粒度的情感模型,最后同样针对酒店企业进行了细粒度的情感分类实证研究。本文的主要的研究工作包括:第一,研究了口碑网HTML页面的DOM树结构,利用RostDM软件设计了针对酒店评论的URL抓取规则和文本数据采集规则,采集了口碑网中两千多条,近十万字的酒店评论作为语料库。该语料库来自于消费者对酒店的主观评论,具有专业性,情感特征明显等优点,对研究Web文本的情感倾向问题具有一定的意义。第二,研究了特征选择对情感分类的影响,在训练文本分类器的过程中,特征项的选择对分类器的效率和精度有显著的影响。本文采用KNN算法训练不同维度的特征集,得出对于情感文本的分类,用于训练的特征集并非越多越好。选取适量的特征集有助于提高后续研究的效率和准确度。第三,构建了基于情感词典的口碑倾向性计算模型,该模型通过改进原有的知网词典(HowNet),重新构建了情感词词典,添加了否定词词集以及程度副词词集,将不同强度的程度副词划分为五个等级,用于口碑文本的情感倾向性计算。并在该模型的基础上对前面采集到的近千条酒店口碑文本进行了情感分类。第四,研究了细粒度的情感分类模型,对消费者所关注的酒店的房间、价格、位置、服务等属性进行了情感倾向性分析。模型描述了构建细粒度情感分类器的具体流程,通过计算文档频度提取出评论中情感词所关联的高频属性词(比如:房间、价格、位置、服务等),将含有该属性词的文本归为一组,利用RapidMiner文本挖掘软件中的KNN算法分组训练分类器,从而对消费者所关注的各个属性进行情感分类。细粒度的情感分类帮助企业更加细致的了解消费者对其产品或服务在某个属性上的满意度,可以更好的针对这些属性提出改进策略。