论文部分内容阅读
在互联网技术飞速发展并日益成熟的今天,网络成为我们日常生活中不可或缺的一个重要部分。加之平板电脑与智能手机等移动互联网终端设备日益普及,使得网民能够随时随地地融入互联网世界,随着人们对网络的依赖程度也逐渐加深,互联网成为信息传播的主要途径之一。当网络突发事件发生后,更多的人习惯于从互联网获取相关信息,尤其是通过微博、微信、博客等网络平台获取所谓的“事实真相”并进行转发。然而,网民在网络上转发这些信息时往往加载自己的主观情感,这种由现实事件诱发的个体情感也比较容易引起网民的共鸣,由此可见,网络对社会舆论有放大作用。如何从互联网中捕捉到网络舆情突发事件,从而合理地控制和引导舆论发展方向,减少突发事件造成的不必要危害,成为摆在人们面前的重要课题。由此可见,为网络舆情事件的应急处理提供数据支持和技术手段,这一研究课题具有积极的现实和理论意义。目前,国内外对网络舆情突发事件的研究已经有了很大的进展,相关的专家学者从社会科学、心理学、信息科学等方面对网络突发事件的演化机理、发生、发展规律进行过深入地探讨,但仍存在以下几个亟待解决的问题:(1)互联网环境下,信息碎片化传播致使网民难以获取全面的信息互联网环境下,网民在传播信息的同时追求个性,加之网民知识结构、年龄结构、地域结构的差异,致使他们对同一事件的关注点不同,选择传播的信息点和信息量也不尽相同,最终导致信息的碎片化传播。信息碎片化传播导致网民难以获取全面的信息,反而获取的是离散的、片面的信息碎片。片面的信息也给别有用心者提供了肆意发挥、捏造事实的空间,在一定条件下极易演化为网络舆情。(2)平面话题模型难以描述种子事件和衍生事件之间的语义联系,导致相关事件检测困难现有相关事件检测方法多利用核心词作为事件关联的依据,该方案容易探测种子事件和衍生事件之间的关系,而衍生事件之间是否相关却难以探测。尤其是当衍生事件均与种子事件密切相关时,种子特征却成为衍生事件间关联检测的干扰。如何消除种子事件带来的干扰,探测种子事件和衍生事件之间的关联关系,是本文拟解决的关键问题。(3)现有方法忽略了网民情感对事件演化和传播的影响,导致突发事件检测准确率降低信息传播的过程实质上是网民情感交流和碰撞的过程。突发事件发生后,网民从互联网获取信息的同时会传播信息,在信息传播的过程中他们往往附加恐慌、愤怒或其他负面情绪。在信息传播的过程中,网民情感得到放大和共鸣,最终导致群极现象,刺激网络舆情事件爆发。针对上述问题,本文将子话题划分、相关事件识别、突发事件检测三个方面作为本文的研究内容,主要工作如下:(1)提出一种基于改进蚁群聚类算法的子话题划分策略本文认为,当一个话题被划分为若干个子话题时,划分过程中话题的语义损失度应保持最小。基于上述思想,本文首先将话题划分为句子的集合,以句子为单位构建它们的特征空间;以此为基础构造话题聚类语义损失度函数,结合sigmoid函数构建语义相似度计算方法,改进蚁群聚类算法,达到子话题划分的目的;最后,通过直接评价和间接评价验证本文方法的可行性。(2)提出一种基于实体依赖的相关事件识别方法现有研究方法仍然是借鉴篇章关系分析方法,却没有注意到种子事件、衍生事件之间的关系,尤其是衍生事件之间的关系推理仍鲜有涉及。尤其忽略了衍生事件间事件关系识别过程由于种子特征带来的干扰,导致衍生事件相关检测准确率降低的问题。为此,本文在子话题划分的基础上,将话题特征划分为种子特征和衍生特征两个维度,以此为基础构建层次事件模型,从种子特征和衍生特征两个维度构建文档间的事件关联线索。最后,引入依存句法分析和文档内事件关系线索,用于文档间事件关系线索的扩充,达到相关事件识别的目的。(3)提出一种基于用户情感的在线突发事件识别方法自移动终端接入互联网以来,微博、微信等媒体平台迅速发展。而在这些平台中,网络突发事件大大增加,其突发性、爆炸式增长和多点爆发等特点使得对于该类事件的检测和追踪带来困难。针对这一问题,本文提出了一种融合用户情感的突发事件检测方法。本方法为话题构造了层次模型,并且可以依靠时序驱动的方式不断的调整模型的特征项,以达到在线识别突发事件的目的。同时,通过对用户情感的深入研究,分析网络用户对突发事件所持有的态度,将包含群体负面情感的话题视为突发话题,以此过滤掉网络中充斥的大量生活、娱乐等热点事件而非突发事件。