论文部分内容阅读
随着互联网的迅速发展以及新媒体形式的社交平台等的兴起,不计其数的用户参与到了网络社交平台的使用中。社交网络的文本作为带有强烈情感色彩的文本信息,对研究用户的兴趣取向具有重要的帮助。如何对这些文本信息的情感色彩进行准确的识别分析已经成为了当前学界众多科研人员的主要研究问题。近年来,以无监督方式经过长时间的训练之后得到的BERT模型,在NLP领域有着显著的成果。本文在BERT模型的基础上,提出了一种名为B-Feature的特征构造的方法,结合改进之后的LSTM模型,对社交网络的文本信息进行情感识别分析。本文的主要内容如下:(1)分词作为传统方法获取文本向量的主要步骤,具有一定的局限性。本文提出一种基于BERT模型的特征构造的方法B-Feature,在避免分词的基础上,保留了文本语句的主要特征信息。通过对句编码的信息,进行补充,重组以及删减之后,在获取的句编码的基础上对文本的特征向量进行构造,得到处理过后基于BERT模型构造的特征。通过对比实验表明,提出的特征构造的算法,与TF-IDF等方法相比,在搭配相同的神经网络分类器的情况下,在长中短三种长度的公开数据集上的准确率分别提高了7.8%,3.8%,11.7%。(2)针对传统方法对社交网络文本情感识别准确率不高的问题,本文选取LSTM作为实验基础模型,在单向LSTM的基础上,加上一条反向的LSTM,并在此基础上引入注意力机制使其能够更好的关注特征中的关键特征,之后将特征构造的方法B-Feature与引入注意力机制的双向LSTM组合搭建模型,将特征构造后的特征信息送入引入注意力机制的双向LSTM中训练并进行分类。实验证明,本文提出的模型与传统的方法结合LSTM的模型相比,在两个公开的微博文本数据集上的准确率分别提升2.96%与3.87%。(3)在本文提出的算法及模型组合的基础上,设计并实现了社交网络热点话题分析系统。该系统通过爬虫获取社交平台上的热门话题及话题评论,通过本文的模型对获取的文本信息进行情感识别,使社交网络文本的情感色彩以可视化的界面的直观的呈现给用户。不仅功能全面,而且提高了用户获取信息的效率,实现了本文的应用价值。