论文部分内容阅读
随着计算机和互联网技术的更新和发展,越来越多社交、商业平台陆续出现,面对社会舆论热点、在线购物体验等事物伴随而来的是大量含有情感色彩的评论、微博等短文本。无论是从消费者还是商家制定消费、销售策略的角度,还是从政府部门监控舆情的角度,或是从新闻等媒体更有效传播信息角度上看,快速得知这些语料情感倾向的方法和模型的研究不仅具有应用价值也具有理论意义。于是应运而出了情感分析这一全新的研究领域,情感分析的方法按照其原理和思想可以分为三类——规则词典、机器学习和神经网络,结合这一背景为了使研究更具代表性,本文主要采用经过改进的情感得分(修正情感得分),支持向量机,双向BLSTM神经网络及其改进模型对6万余条商品短文本评论进行情感分析研究。通过相关学术文献研读发现目前该领域存在以下几个问题:(1)传统情感得分的符号可以判别情感极性,但数值随文本长度随机变化,基本的统计学习无法发掘情感得分数值部分的意义;(2)词向量作为多数机器学习和神经网络模型的输入,多数研究采用相关平台上基于一定语料训练而成的词向量库来作输入,但用于具体研究时这一做法的泛化能力有待考究;(3)另一部分研究自行训练的词向量多数采用平权的方式计算每条短文本的向量表达,忽略了词频和逆文本频率指数对每条词向量权重的影响,实验输入不够完善。针对情感分析领域存在的上述问题,本文进行了如下工作:(1)对相关文献进行研读和梳理,整理存在的弊端提出改进的思路,并将本文用到的模型理论进行阐述;(2)考虑传统规则词典情感得分忽略了文本情感极性值与文本长度之间的关系以及商品评论的文本数据其长短与感情强度之间的关系,本文对其进行两步改进,定义平均长度引入修正情感得分来替代传统的情感得分;(3)将切词包的标准词库中加入正负两个情感词典的路径对获取的6万余条语料进行切词、去除停用词等预处理,对于支持向量机以及BLSTM神经网络模型的输入,本文词向量的构建基于在Python语言下利用gensim包里的Word2Vec函数进行的平权词向量和基于TF-IDF加权的词向量,两者作为两次输入在BLSTM神经网络模型中进行对比;(4)介绍本文实证部分的评价体系,并介绍各个模型编程中的关键函数,共进行修正情感得分、支持向量机、双向长短期记忆神经网络及其改进模型四个方法的实证训练,四种模型的F1值分别为0.80、0.85、0.87、0.89,从实验结果上可以看出经过改进的双向长短期记忆神经网络模型在情感分析的功能上具有一定的优越性。最后,对本文的研究结果进行总结,并针对研究过程中存在的问题和未完善点进行展望。