论文部分内容阅读
随着互联网技术的不断普及与发展,互联网为大家带来便利的同时也成为了网络用户宣泄情绪的渠道之一,也由此导致了各种各样发酵传播迅速,且难分真假的舆情问题。在生活物质富裕的今天,食品安全问题一直是备受人们关注的热点问题,人们期望有一个食品安全的监管渠道和平台,能够帮助发现和避免市面上一些假冒伪劣的食品。因此互联网也成为食品安全舆情的主要阵地,有部分网民在网络平台中宣泄不当的情绪,同时引发了网络中其他网民的情绪共鸣,就有可能发展为社会公共性事件,如果处理不当将会引发社会恐慌,例如早期的“红心蛋”事件,到后来的“地沟油”事件等。由于舆情会切实影响到人们的生活,因此任何不当的处理都有可能造成严重的后果,典型的问题例如网络中会出现一种带动舆论方向的推手,他们会根据当前的事件发展去诱导或者改变网民们关注点,如果出于不可告人的目的,有可能给社会和国家带来不可估计的损失,所以如果能够准确及时地把握舆情的导向和舆情爆发的时间点,将可以挽回更多的损失。因此网络舆情研究有具有重要的意义与价值。分析网络舆情发展的指标有很多,比如点击量,转发量,活跃度等,其中网络评论常常作为判断和分析舆情发展程度一个强有力的参考依据。本文主要是通过对评论的主题分析和情感倾向的研究来预测舆情发展的态势,结合深度学习的方法能准确的提取每条评论的情感极性和主题摘要,这样不仅可以知道舆情的主要关注的问题侧重点,也能更好的判断出网民对当前舆情的持有态度,从而能够及时有效的管控舆情可能会带来的影响。本文的工作研究内容如下:(1)对原始文本数据预处理。清洗数据集,将标点符号等字符和其他无用字符替换,剔除不可用的数据条例,将食品评分转为情感极性,清洗摘要数据集,将数据集转为词嵌入向量矩阵。(2)深入研究了 ELMO模型并改进ELMo的下游任务模型。本文将ELMo与GRU两个模型结合起来进行情感极性的分类研究。主要是通过EMLo预训练后生成的文本向量,将向量通过GRU神经网络训练并经过池化层和激活函数去预测情感倾向。ELMo模型的优点是在运算时采用双向LSTM,通过文本的位置向量和句法向量与原词向量的叠加,从而得到新的文本空间表示方式,这样不仅可以区分不同词语在不同语义下的表达含义,同时也区分各个词语在不同语义下的空间向量,在ELMo模型输出的词向量的基础上经过GRU神经网络训练,最终预测出情感极性。实验结果显示本实验模型与GRU+wod2vec相比正确率上升了 14%左右。(3)在使用ELMo训练输出的词向量作为输入层的前提下,本文改进Encoder-Decoder模型中的编码器与解码器的结构。在编码器中本文借鉴了 ByteNet网络,并使用空洞卷积的方式逐步扩大编码器在做信息压缩时的感受野,使得编码器能够更好的考虑和压缩全文语义。在解码器中提出使用的GRU叠加的网络结构,同时在每个GRU层中加入了 Attention注意力机制,使得解码器能够更好的关注每一层的关键预测信息。实验结果证明本文模型在提取评论文本的主题摘要上比传统的RNN seq2seq与Currnnt ByteNet正确率分别提了 9%和3%不等。(4)舆情监控分析系统的实现。运用本文中的两个模型,并分别将模型单独调用提出并实现舆情监控分析系统。系统主要包括舆情信息的查询,按日期舆情汇总,舆情走势图展示等。