论文部分内容阅读
公共危机突发事件爆发越来越频繁。当我们还没从“云南盈江地震”中缓过劲,“日本9.0级大地震”奔袭而来。突发公共事件日益增多,自然灾害发生频率逐步加剧,互联网的应用越来越普及,社会舆情事件迅速在网络上传播、扩展、衍生、甚至引发网络舆情(IPO:InternetPublicOpinions)危机。网络舆情危机事件爆发的可能性加大。网络舆情更多是由网民在互联网上相互讨论引发的,带有情感色彩的语言词汇交织在一起,网民观点相互碰撞,原本并不受关注的某一社会舆情事件被推向网络舆情危机边缘,直至引发网络舆情危机。网民的观点通常带有个人感情色彩和情感倾向,观点挖掘(OM:OpinionMining)关注的是网民评论中情感表达词汇,并将评论中的情感倾向挖掘出来。
网络舆情事件中网民观点具有不同的观点极性,在各种观点极性下也具有不同的观点强度,并且每一种观点强度所关注的事件的特性是不一致的,也即每一种强度下的观点具有不同的观点属性。将观点极性、强度和属性结合在一起,构建面向网络舆情的观点树结构,有利于网络舆情的定量化描述,也有利于整体把握网络舆情动态。
基于此,在国家社科基金项目“面向网络舆情危机预警的观点柔性挖掘方法研究”(课题编号:09TQB034)的支持下,本研究从网络舆情出发,对面向网络舆情中的观点树进行挖掘并展开研究。
本文的主要工作和创新之处体现在:
(1)网民观点与网络舆情关系分析。首先提出网络舆情元信息,分别对元信息、网民观点、网络舆情之间相互关系进行分析,从而分析了网民观点极性、观点强度以及观点属性之间的关系,基于以上分析,提出一种称为“观点树”的网络舆情表示方法。
(2)基于ExPMI_IR的网络舆情观点极性挖掘。
Ⅰ.网络舆情传播过程中,网络情感词语对网络舆情的发展起到促动作用,能够凸显其对网民观点倾向的影响;为了提高观点挖掘准确率,本文所做的工作之一是对金山词霸网络词语词典进行情感极性手工标注,从而构建基于金山词霸网络词典的网络情感词典(文章中称之为Senti-NetWords);对HowNet词典进一步处理,构建基于HowNet的情感词典(文章中称之为Senti-HowNet)。
Ⅱ.在情感词典基础上,提出ExPMI_IR(ExtendedPointwiseMutualInformationInformationRetrieval)的观点极性挖掘算法,给出特征词倾向度计算算法,对文档特征词进行过滤;克服算法对人工词语种子集的依赖性,同时情感种子集在完备性和准确性方面获得了提升;
Ⅲ.实验过程中,用网络舆情事件的网民发帖建立实验语料,对其进行相关实验,实验结果表明,基于ExPMI_IR的网络舆情观点极性挖掘方法准确度得到一定改善,并且,网络情感词语对网络舆情挖掘有所影响,但对来源网站不同的网民观点,其对挖掘结果的影响是不同。网络舆情观点极性挖掘完成的是观点树粗粒度节点的构建。
(3)基于Logistic回归模型的网络舆情观点强度挖掘。
为了进一步了解网民对某网络舆情事件所持观点强度,从Logistic回归模型出发,建立基于多分类Logistic的观点强度挖掘模型,在模型中,通过定义不同的观点强度值来判定网民观点强度;实验过程中,采取某网络舆情事件中的网民发帖作为数据来源,建立实验语料,实验结果分析表明,基于Logistic回归模型的网民观点强度挖掘方法能够较好地挖掘出网络舆情观点强度,其结果优于基于评价理论的网络舆情观点强度挖掘方法。网络舆情观点强度挖掘完成的是观点树中粒度节点的构建。
(4)基于短语模式的网络舆情观点属性挖掘。
在对网民观点属性进行挖掘过程中,从语言学角度出发,分析词典中对词语定义的特点,定义适合网络舆情中网民观点属性挖掘的短语模式,通过模式匹配的原则实现网络舆情观点属性挖掘。网络舆情观点属性挖掘完成的是观点树细粒度节点的构建。
(5)观点树挖掘。
单一的网民观点极性或者观点强度不能充分描述网民观点对网络舆情的影响,为了更详细描述网络舆情,为不同网络舆情管理人员提供不同的舆情管理参考,将层次划分树构建思想引入用于构建网络舆情观点树,将网民观点极性、观点强度以及观点属性用一棵观点树进行描述,对网络舆情事件进行实验,给出相应网络舆情观点树,从而进一步分析网络舆情事件。