论文部分内容阅读
传统的文本情感分析在一些仅需情感极性判定的领域,如网络舆情分析、股评分析等,已体现出较好的应用价值。然而,随着应用的深入,用户如希望进一步获得评价对象属性所对应的具体情感分析结果,传统的情感分析则不能完全满足需求,为此,细粒度情感分析便应运而生,并得到越来越多的重视。不过,目前在细粒度情感分析的文本表示上,依然存在着许多困难和挑战。比如,商品评论属网络文本,存在文本短、重点信息多、不规范、表达方式复杂等特性,甚至可能存在未登录词,或情感词缺少对象属性等问题。此外,现有电商平台还未实现细粒度情感分析系统的实际应用,如何把算法应用到实际生活,这也是一个具有挑战性的工作。本文针对细粒度情感分析中的这些关键问题,在总结国内外细情感分析理论及其研究成果基础之上,主要研究内容包括以下五个部分:(1)通过引入词频-逆文档频度(Term Frequency-Inverse Document Frequency,TF-IDF)技术对关键词向量进行权重标注,再使用文本卷积网络(Text Convolutional Neural Networks,TextCNN)进行情感分类,从而提高细粒度情感分类的准确性。经过实验证明,相较于传统的TextCNN在细粒度情感分类的精度上有所提高,为解决关键词向量权重问题提供了很好的解决思路。(2)通过在输入时引入联合字词表示加强文本表示,在使用面向方面嵌入的门控卷积网络模型(gate convolutional network with Aspect embedded,GCAE)分类前添加一层额外的长短时间记忆模型(Bi-Long Short Term Memory,BiLSTM)改善其长句信息丢失的问题,从而提高细粒度情感分类的准确性。经过实验证明相较于经典的GCAE模型在细粒度情感分类的精度上有所提高,为改进经典模型提供了很好的解决思路。(3)针对静态词向量在文本表示上的不足,用动态分字预训练模型加强文本表示,使用预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,以达到文本表达的较好效果,并使用集成学习的分类方法对两种分类器加强情感分类,从而达到较为精准的细粒度情感分析。经过实验证明,该模型对提高细粒度情感分析的精度有着最好的效果和精度。(4)针对商品评论文本的不规范性问题,本文使用基于深度学习的改进模型,使其能自动对新增词汇进行特征学习,不需要额外的人工干预。(5)本文将细粒度情感分析精度效果最好的模型封装成原型系统,描述了原型系统的需求分析,并且实现了细粒度分析结果的可视化,为细粒度情感分析系统的实际应用打下了基础。总之,本文针对商品评论网络文本的固有缺陷,提出了一些技术措施。从改进文本表示和优化分类器的角度,提高了情感分类的精度。此外,将本文提出的情感分析精度效果最好的模型封装成原型系统,从系统设计的角度实现了相关功能,可以为细粒度情感分析系统的实际应用提供参考。