论文部分内容阅读
用户评论数据直接地表达了用户态度和行为偏好,对用户评论文本进行挖掘可以创造新的社会价值。目前粗粒度的用户评论挖掘方法已经获得优异的成果,然而实际的用户评论包含了复杂的观点信息,并且杂糅了众多的评价对象以及评价对象的属性。本研究针对细粒度情感分析问题设计了性能更好的模型,有助于管理人员与研究者获得更准确的用户观点信息。本研究将情感分析问题视为普通分类任务进行化解。首先分析了情感分类任务中常用到的循环神经网络及其变体存在的缺陷。一方面普通的循环网络及其变体是注意力分散模型;另一方面随着时间步的增长,隐藏状态向量会被多次更新,从而导致较长距离上的信息难以保存。为了克服缺陷,本文提出了多头注意力记忆网络模型。其次分析了多头注意力记忆网络在实际应用中存在的限制和弱点。一方多头注意力记忆网络只能处理显式的评论对象,无法处理隐式表达的评论对象;另一方面多头注意力记忆网络属于单任务学习模型,在训练时割裂评论对象之间可能存在的相关性。因此本文重新确定了情感分析粒度,将多分类任务模型转化为一个多任务学习模型。最后将多任务学习分类模型用于实例分析,收集大众点评网的用户评论,通过词云分析发现用户表达趋势和主要关注要素。利用粗粒情感分析方法发现用户消极情绪集中的时间域。利用细粒度情感分析方法发现用户消费过程中存在的痛点和不满,并据此提出改进意见。研究结果表明:多头注意力记忆网络中记忆组件可以反复读取,有助于模型捕获长距离上的信息;多头注意力机制可以在多个低维特征空间中计算注意力权重,捕获更丰富的语义信息;词语的位置信息和数据样本的分布会影响模型性能。另外,本文对比了六个不同结构的多任务学习模型,以正确率和Macro-F1值作为衡量指标,认为Transformer-Capsule网络性能最优。Transformer作为本文特征提取器性能优于常用的Bi-LSTM和Bi-GRU,分类器方面Capsule模型优于常用的CNN+Softmax组合。实例分析说明粗粒度的情感分析方法可为管理者提供预警,细粒度情感分析方法可帮助管理者发现消费痛点。