论文部分内容阅读
当前,微博已成为第二大舆情源头,成为传统媒体跟踪突发消息的重要来源之一,在向舆情和突发事件的转移扩散中扮演着重要角色,很多公共事件、焦点问题、突发事件都会在微博迅速传播,为公众和网民所知晓,并引起广泛讨论。因此如果能对微博中的话题进行监测及时的发现突发事件,舆情监督部门或者决策者就能在合适的时机介入,争取化危机为转机,尽可能的避免突发事件转化成恶性群体性事件。微博作为一种新型的社会媒体,其内容短小精悍但时效性强,信息含量小但话题更新快且总体数量巨大,并且大部分微博的情感表达的倾向性较为明显。因此微博的短文本挖掘、话题趋势检测及情感倾向性分析等也是微博研究的重要方向。但是相关的研究工作之间的交集较少,均集中在各自的领域。如果把几方面的工作融合起来,不仅具有创新性,而且具有较大的实用价值。本文在前人研究的基础上,以新浪微博为研究平台,基于舆情事件的突发性和情绪色彩性,来探讨微博平台中的突发事件发现。具体来讲,本文工作主要有以下几点:1)微博数据采集。本文提出基于微博API和模拟登录爬取动态网页多策略融合的中文微博数据采集方案,来实现对微博平台实时和海量的数据采集。2)噪声微博过滤。为了提高监测的效率,本文针对海量微博数据,提出基于构建噪声词典和识别噪声用户的噪声微博过滤方法。实验证明本文提出的方法虽然过滤噪声微博召回率不高,但具有很高的准确性,能用在微博的预处理阶段不影响舆情话题的提取。3)突发话题发现。本文提出从相对词频、词频增长率、突发权重三个维度来提取突发特征词,而后基于共词分析理论利用特征词间的共现频率来计算特征词间的相似距离,最后采用“绝对聚类”的算法来实现突发词聚类。4)话题情感分析。本文在开源情感词典的基础上,构建了微博情感词典。而后提出基于情感词典和语义规则相结合的微博语句情感分析方法。对微博话题情感分析,本文提出结合微博发布用户的传播影响力来计算整个话题的情感倾向。