论文部分内容阅读
随着现代社会网络化进程的加速,网络已经成为人们表达个人意见和观点的重要渠道。网络舆情信息成为舆情信息的一个关键部分。网络舆情和传统舆情相比,具有数据量大、突发性强、影响范围广等特点。在大数据环境背景下,网络舆情信息的挖掘较以往的传统媒体更加困难,并且更加难以规范。因此,如何利用语义识别技术,有效地从海量的舆情信息中挖掘出其中的关键因素并指导决策以及突发事件的处理就成为舆情研究的重要方向。本文通过分析研究网络舆情语义识别的各类技术,重新建立一套网络舆情语义识别的流程。该流程不仅包含网络舆情语义识别的技术细节,同时也建立起一套网络舆情突发事件的评判标准提供参考。本文所构建的网络舆情语义识别的流程包含网络舆情信息采集模块、网络舆情预处理模块、网络舆情话题识别模块以及网络舆情反馈模块等四组子模块,前三个模块的主要工作是对网络舆情进行识别分析,从浩如烟海的网络信息中将网络舆情信息加以提取,所以这三个子模块是舆情预警与疏导的基础;而网络舆情反馈模块则是基于上述三个子模块的识别结果对网络舆情态势进行系统的分析,并针对舆情突发事件的不同爆发状态提出相应的疏导策略。本文针对当前网络舆情爆发的主要阵地微博平台提出了实证研究,选取了当前的舆论热点话题进行语义识别分析,并预警突发事件,提出疏导建议。本文的创新点主要有:将网络舆情信息语义识别技术进行归类,比较分析各种语义识别技术找到其各方面的特征,比较分析的方面主要有:信息处理的精度比较、人工参与程度比较、特征库比较、多媒体信息的处理能力比较、深层次语义信息的挖掘比较、技术复杂程度比较以及通用性、适应性的比较。对网络舆情信息的语义识别技术进行研究,并根据网络舆情的特点,提出一个网络舆情语义识别的技术流程方案。整个流程分为信息采集、预处理、话题分析、舆情反馈等几个步骤。在网络舆情信息的采集过程中,本文采用通用网络爬虫技术对网络信息进行爬取;在获取了基础的数据集合之后,需要对信息集合进行预处理,将文本进行分析处理并去除文本中的停用词,对文本信息的特征进行抽取;随后,对舆情信息的文本集合进行聚类分析,使用文本向量模型对文本信息金星表示,采用K-means聚类算法对文本信息进行聚类,挖掘信息话题;对信息的情感倾向性进行分提取,对其情感倾向的强弱进行排序,得出舆情语义识别的结果。