论文部分内容阅读
微博以其快速的信息传播能力,广泛的用户参与特性以及显著的自媒体特征,为信息传播掀起了划时代的变革浪潮。现实世界中的公共事件及其社会舆论在微博中聚集、交锋、相互影响,使微博成为了一个巨大、复杂的舆论空间。公共事件的信息在微博中传播扩散,形成和影响了微博网络舆论,而网络舆论的演化和聚焦又会反过来影响现实世界中事件的发展。因此微博新媒体成为了研究公共事件及其社会舆论演化和相互作用规律的绝佳平台,也使这一研究具有很强的现实意义和社会价值。本文从微博新媒体中传播的信息入手,按信息对主、客观世界的刻画将其分成了两类:一类是对客观世界中事件的描述,表达了事件的结构属性和演化过程;另一类是对微博用户主观世界的描述,表达了微博用户对特定事件的兴趣与期待、观点与态度、情感与倾向。本文又分别选取了权威用户发表的长微博和普通用户对长微博的转评微博作为研究这两类信息的样本。基于此,本文先后对面向微博新媒体的新事件检测,事件的演化分析,公众关注点的演化分析,公众关注对事件信息的影响等问题进行了研究:(1)在微博流的新事件检测方面,针对微博充斥噪音、语言简短随意、语法不规范、上下文结构松散等特点,提出了一种基于群体智慧的微博流新事件检测方法,该方法将微博流按用户个体及其社交关系进行分流,构造微博用户的个体判别模型,模拟构建了真实用户对新事件做出判断时所依赖的知识结构。再通过综合多个用户个体模型的判别结果,以投票的方式得出新事件检测的最终结论。由于在将微博流进行分解的过程中,由用户个体差异产生的噪音也随之被分解,同时又使具有内在相似性的信息集中在同一个体模型中。进而通过一人一票的方式,减弱了个体噪音对整体判定结果的影响。通过实验验证了该方法相比于单一判别模型有更高的准确率。随后又对方法中若干关键问题进行了讨论:在如何选取投票用户的问题上,提出对于未预先指定检测目标的任务,可使用发帖量较多的活跃用户,而对于特定目标的事件检测任务,应选取专家用户的高质量粉丝;在投票策略的制定方面,提出使用兼顾了新颖性和宽容性的“少数否决制”策略;对于所提出的方法时空复杂度较高的问题,提出通过分布式计算架构对其进行改善;(2)在事件演化分析方面,针对已有研究中事件粒度难以确定的问题,将信息提取技术和原子事件的概念引入事件演化分析的研究中,提出了一种基于原子事件挖掘的事件演化分析方法。该方法首先从单篇文档中抽取原子事件,继而识别文档集合中原子事件的共指,再分析原子事件的演化关系,构建原子事件的演化结构。通过引入原子事件的概念,既规范了事件演化结构中事件的粒度,又打破了传统方法拘泥的文档边界,因而可以从长微博中挖掘出更多与话题相关的原子事件,从而扩大了事件分析的视野。同时,由于采用了“事件小于文档”的观点,因而能够使用一些传统方法无法得到的事件关联特征,这使得该方法能够构造出比传统方法粒度更细、可解释性更强的事件演化结构。该方法的缺点是粒度过小可能导致事件演化分析结果中原子事件过多,反而不利于阅读和浏览,因此本文提出了两种筛选策略,通过对图中事件重要性进行评价,从而实现了对事件演化图的精简;(3)在微博事件中的公众关注点演化分析方面,针对已有方法要求对事件信息及公众关注具有先验知识的缺点,提出了一种综合利用长微博及其转评微博的无监督的公众关注点演化分析方法。基于在内容层面对公众关注点的定义,该方法首先用长微博中的事件信息还原话题空间,再将转评微博映射到此空间中,将公众关注点的演化分析转化为话题空间中转评微博位置的跟踪。由于该方法不需要预先构造事件的关注框架并指定关键词,因而可以适用于更加一般的情况。虽然通过三部图可以将长微博、转评微博和公众关注点的关系进行详尽的刻画,但这一展示方式并不直观,因此本文借鉴了软件工程统一建模语言中时序图的绘制方法提出构造公众关注点的演化图。随后基于采集自新浪微博的真实数据,通过时序分析发现了数据中存在的“升温的”、“持续的”、“饱和的”、“冷漠的”和“预期的”等5种类型的公众关注点,从而验证了该方法的有效性。(4)在公众关注对事件信息演化产生影响的研究方面,已有工作中对此研究较少。本文将公众关注对事件信息演化的影响称为舆论效能,通过将舆论场与电场、磁场等物理场进行类比,将舆论空间的状态,状态间的迁移,以及舆论场对事件信息的影响进行量化,提出了一种基于舆论场视图的舆论效能近似度量方法。本文继而将舆论效能与事件信息的演化相结合,提出构造事件信息演化图。该演化图将事件信息的演化过程描绘为舆论空间状态的迁移,同时,演化图中又对状态的迁移原因进行了解释,从而反映出事件信息的演化是否缘于公众关注对其产生了影响。随后基于采集自新浪微博的真实数据进行分析,成功地对数据中存在的“公众关注主导的事件信息演化”和“事件信息主导的公众关注演化”进行了符合直观认识的区分和解释,从而验证了该方法的有效性。综上所述,本文针对微博新媒体中事件信息与公众关注的分析技术提出了有效的解决方案,并通过在真实数据集上进行的实验验证了所提算法的有效性,对于推进面向微博新媒体的公共事件及其社会舆论分析技术研究具有一定的理论意义和应用价值。