论文部分内容阅读
在互联网技术日新月异的今天,其支柱产业电商也越发引人关注。为提升用户体验以及方便商家获取反馈信息,各类平台提供了评论区供用户发表他们对所购商品的评论以及购物体验。通过阅读的评论信息,能促进用户进行合理的购物行为,并能使商家即时改进不足。而随着电商规模不断增长,其评论区堆积了愈来愈多的评论文本。人为阅读评论信息费时费力,会大大打击用户读取评论地积极性,也会影响商家获取用户的反馈信息。因此如何快速获取评论中的关键信息显得十分重要。本文基于深度学习方法,通过评价主体及观点的实体识别以及评价观点的情感分析两个步骤,对商品评论主体观点挖掘,能有效提取评论的主体以及其情感极性。主要工作和贡献如下:首先针对词嵌入部分,通过分析传统词向量Word2Vec的不足,提出了字词双通道的词嵌入方式,通过以TextCNN为分类模型进行实验对比,相较于传统的词向量,字向量以及字词向量连接形式,分类准确率更高。能更好地保留语义信息,且减少未登录词,提高词嵌入的质量。在评价主体及观点的实体识别部分,提出了BERT-CNN-BiGRUCRF模型,在词嵌入层采用了BERT作为语言模型,利用BERT在大量的中文文本上进行预训练而获取的字向量,包含了上下文的信息,包含上下文的语义信息,能够解决Word2Vec的无法表达一词多义的问题。在特征抽取层在一般的BiLSTM深度学习模型前加入了卷积层,利用卷积网络较强的抽取关键语义的能力,弥补了BiLSTM因模型限制无法记忆太多文本的特征信息。同时使用LSTM的变体GRU来替代LSTM,提升了网络的速度。该模型与传统的命名实体识别模型BiLSTM-CRF做对比,针对评论主体以及观点实体类别上,在多项评价指标上都有提升。在评价观点的情感分析部分,提出了ResGCNN模型,其在RCNN模型的基础上,修改了RCNN关于向量特征的连结方式,并应用了图像处理领域中的残差网络,使当前位置的文本向量增加了上下文的语义信息,同时减轻了梯度消失的问题。并多加了一层BiGRU加强了对上下文语义的抽取。接着用TextCNN替换了原本的“伪卷积”,因其多个卷积窗口可以获取句子中n-gram的特征表示,能更好地抽出句子的关键特征。并应用了本文提出的字词双通道词嵌入方式,提升模型对未登录词的适应性。提出了字词双通道的ResGCNN模型,在多个数据集上准确率优于其他多个文本分类模型。最后设计了商品评论主体观点挖掘的人机交互,应用了基于BERT-CNN-BiGRU-CRF模型的评价主体及观点的实体识别方法,以及基于字词双通道的ResGCNN模型的评价观点的情感分析方法。该人机交互能够快速提取商品评价文本的评价主体,对其进行情感极性分析。并可以将评价主体及其对应的情感极性进行展示。