论文部分内容阅读
近年来,着网络的普及和人们生活水平的提,网络购物越来越受到人们的喜爱,天猫商城等网络购物平台也迅速发展壮大,大规模的网络购物行为带来了海量的评论文本数据,这些评论文本的情感倾向性,对于买家的购买决策和卖家的销售策略调整、宣传重点优化以及产品市场定位等有着重要的参考价值。然而,评论文本是一种典型的短文本,传统的文本情感分析方法并不能很好地适用于短文本情感分析,目前短文本情感分析的研究还处于起步段。为了进一步提升对于短文本的情感分析效果,本文以天猫评论短文本为研究数据,提出了一种基于扩展情感词典的短文本情感分析方案。文章主要包括研究数据的获取与处理、扩展情感词典的构建、评论短文本的情感分析以及应用系统的设计与开发等。在数据的获取与处理方,首先,基于python编写程序,获取研究要的数据,并进行数据清洗,保留有意义的数据,按照规定的格式进行存储;然后,合并初次评论和追加评论的评论文本,并人工标注评论文本的情感极性,去掉情感倾向不明显的中性评论;最后,对带有情感极性的评论文本进行文本处理,包括去标点符号、中文分词、去停用词等。在扩展情感词典的构建方,为了增加情感词典的准确率和覆盖率,本文提出了基于融合算法STSA(Snow NLP TF-IDF Synonym Algorithm)的扩展情感词典构建方法。先,以通用情感词典知网Hownet、台湾大学简体中文情感词典NTUSD以及清华大学褒贬义情感词典THUOCL的去重并为辅助情感词典;然后,把TF-IDF算法融合到基于snow NLP的规范长文本情感分析方法中计算情感词的情感分值;最后,对情感词进行同义词或近义词扩展,并计算出该同义词或近义词和对应的情感词之间的相似度分值。通过以上步,得到扩展情感词典。在评论短文本的情感分析方,本文设计了三个对比实进行证扩展情感词典的有效性。先,基于网络爬虫获取实数据,并对数据进行清洗、人工标注和处理,获得实语料库;然后分别用基于扩展情感词典的短文本情感分析方法、基于snow NLP的短文本情感分析方法以及基于朴素贝叶斯的短文本情感分析方法进行短文本情感分析实,并用完全相同的测试语料库进行效果测试;最后分别计算三个实的精确率P、召回率R和F1值。实结果证明,基于扩展情感词典的方法,在三个实衡量标准数值上均优于基于snow NLP的方法和基于朴素贝叶斯的方法,本文的研究方案合理有效。在应用系统的设计与开发方,为了更好地应用本文提出的研究方案,本文设计开发了短文本情感分析系统。并且,为了实现数据的稳定存储和快速读写操作,本文使用My SQL构建了短文本情感分析数据库,用来存储系统运行所要的重要数据以及该系统运行过程中产生的重要结果数据,有效地增加了数据的读取速度并提了数据操作的灵活性和数据的可管理性。经过测试,该系统实现了自动化的短文本情感分析,能够对分析过程中的重要结果数据进行可视化地展示,并根据分析结果给出合理的购买建议。短文本情感分析系统可以给用户展示更加直观的情感分析结果,带来更好的使用体验。