论文部分内容阅读
随着互联网的发展,网络社交平台的成熟,越来越多的信息涌现在社交平台上。其中,网络用户群体基数大,且涉及人群的领域范围广的国内网络社交平台,属新浪微博莫属。我们如何有效的从这些杂乱、简短、无序,且又充斥这大量网络用语的博文中发掘高质量的,且带有情感倾向的文本,已经成为自然语言处理的一个重要课题。本文主要构建了两种文本情感分类的方法,即基于LS-SO算法的文本情感分类方法和基于Attention机制的Bi-LSTM模型的文本情感分类方法。较以前的文本情感分类方法是有所优化与改进的。本文研究工作如下:1、构建情感词典。对清华大学李军中文褒贬义词典和大连理工大学的中文情感词汇本体库进行情感七分类整合,同时,对知网HowNet情感词典和台湾大学NTUSD简体中文情感词典进行情感二分类整合。共标注了八个词典:基础情感词典、目标情感词典、网络用语情感词典、表情符号情感词典、否定词词典、疑问词词典、程度副词词典、连词词典,从而为文本情感分类提供保障。2、自动扩充基础情感词典。使用PMI-IR算法分别对基础情感词典的7大情感类别下的正负向情感词进行同义扩充,从而形成标准基础情感词词典。3、自动扩充领域情感词典,包括情感词典的扩充和表情符号情感词典的扩充。在PMI-IR算法的基础之上提出了一种LA-SO算法对与微博相关的领域情感词典进行情感细分类的自动扩充。4、细化候选词抽取规则和微博文本语义分析规则。根据我们制定的抽取规则来抽取文本中的候选情感词,以便更好的识别出未登录词。根据语义分析规则计算文本的情感值。同时计算表情符号的情感极值占比,将其与情感词的极值进行融合,从而进一步修正微博文本的情感加权值。5、搭建深度学习模型。在构建Bi-LSTM的基础上引入注意力机制Attention,将模型结构分为四大层次,即词向量表示层、语义信息编码层、全局特征抽取层、情感文本分类层。其中,词向量表示层采用Word Embedding机制将文本数据映射成低维度的实数向量。语义信息编码层分别计算每个词对句子的贡献程度值,并保存每个词的上下文信息。在全局特征抽取层,借鉴了CNN思想对前后向输出特征值进行特征融合,从而提高模型情感分类的准确性。情感文本分类层采用了Softmax分类器进行情感文本分类。