论文部分内容阅读
随着微博社交平台在中国的盛行,越来越多的民众愿意在微博上发表和交流自己的生活感悟或者观点看法,微博成为了网络舆情重要的起源地和发酵地。国内外对于微博舆情越来越重视,投入大量的人力物力在微博舆论的监控上。在微博舆情的形成和发展过程,意见领袖起着举足轻重的作用。意见领袖拥有大量的粉丝和强大的影响力,左右着舆情的走势,因此有必要重视意见领袖的微博影响力,这有助于微博舆情监控工作的展开。微博平台每天产生巨大的微博信息,微博信息这种短文本具有碎片化、不易处理的特点,给微博舆情监控带来了困难。本文将舆情监控的重点集中在意见领袖上,设计出可以抓取微博意见领袖的微博爬虫。通过对其微博消息进行文本情感分析,有效地识别出文本信息的观点和立场,对舆论进行合理的疏导,建立健康、有序的舆论环境,主要做了以下几个工作:首先对微博舆情的形成过程做了探究,分析了微博意见领袖的特点;然后研究分析了与本课题相关的国内外的研究现状和舆情监控系统的框架,并指出当前研究领域的不足并提出了本文的解决方案。接着是着重介绍了微博爬虫、文本倾向性分析这两部分的工作。通过微博平台的API和一定的爬取策略,成功地设计与实现了有效抓取微博意见领袖的的爬虫,给短文本分析提供了数据支持。根据意见领袖的领域相关性特点,构建了HowNet和领域词典相结合的情感本体,基于该本体提出了一种微博短文本倾向性的方法,有效地分析出意见领袖的情感倾向性。最后是基于上述的工作设计并实现了一个原型系统,通过该系统把微博意见领袖的舆情信息展现在用户面前。系统的图表工具清晰地展现了意见领袖的倾向性趋势,用数据为舆情监控工作提供了支持。