论文部分内容阅读
在微博平台上,涉及生活、人际交往等各种信息以前所未有的速度增长,并呈几何级增长式传播。社会上许多突发性话题,往往在微博平台上首发,并快速传播,迅速成为热点,引起广泛的社会共鸣,进而波及传统媒体,产生巨大的社会影响。微博平台上的热点事件检测技术,对于最新社会热点发现、网络民意及时感知、舆情检测、应急处理等方面都具有积极的现实意义。用户通过微博平台对热点事件表达自己的观点和抒发自己的情感,互相交流讨论,形成了海量情感文本信息,通过对这些情感文本信息进行分析处理,可以挖掘出其背后隐藏的有价值信息。本文对现有关于微博热点事件检测和情感分析的研究进行分析,指出了微博上进行相关研究所遇到的问题,其一是利用微博标签属性建模来获取热点事件时,对不含标签的微博文本处理和子事件检测问题;其二是微博情感分析中网络流行语获取和其情感极性判定的问题。在此基础上,本文提出了TH-LDA模型来解决微博热点事件检测,基于词典和网络流行语情感极性特征的情感分析方法,研究工作主要包含以下内容:(1)提出了TH-LDA模型,将微博中可用于检测和分析微博文本主题的话题标签(Hashtag)、时间因素(Time)与主题模型LDA相结合,实现热点事件检测,利用此模型对同属于一个热点事件的不含标签的微博文本进行检索,得到更为全面的同一热点事件的微博文本集合,同时实现热点事件中子事件的检测,进而能够更好地对事件的演化发展进行追踪。(2)提出了网络流行语过滤规则(Network Catchwords Filter Rule,简称NCF规则)来构建网络流行语词典和网络流行语情感词典。根据网络流行语词典获取微博文本中的网络流行语,利用网络流行语情感词典对网络流行语的情感极性进行判定。(3)实现微博的情感分析。结合已构建的基础情感词典、表情符号词典和网络流行语情感词典,并融合网络流行语的情感极性特征对微博情感极性进行判定。实验结果表明,TH-LDA模型能够更准确地获取同一事件中不含标签的微博文本信息,实现了热点事件中子事件的检测,也能更好地追踪热点事件演化发展;NCF规则能够构建较完善的网络流行语词典,网络流行语的情感极性特征对微博的情感极性判定起到了很好的矫正作用,实验验证了该方法的有效性。