论文部分内容阅读
舆情是指公众对社会中某些热点事件所持的社会政治态度,是较多群众关于社会各种现象、问题所表达的信念、态度、意见和情绪的总和。随着社会科技进步和互联网的广泛应用,网络成为人们获取信息、表达观点的重要平台,网络舆情也成为社会舆情的重要表现形式。如果对网络舆情处理不当,可能造成舆情事件爆发,对社会影响巨大,因此越来越多的学者投入到网络舆情分析研究中。舆情热点话题研究是舆情分析中的一个重要研究方向,具体包括舆情话题的发现、热点话题的识别以及舆情热点话题的分析等。话题发现是舆情热点话题研究的基础,已有研究主要集中在话题聚类方法的改进上,忽略了聚类之后的话题表示。本文提出将single-pass增量聚类和加权关联方法结合,对网络舆情文本信息流进行实时话题检测并对话题进行提取和表示,通过理论分析和在小数据集上进行模拟实验,证明了方法在话题发现实际应用中的可行性。从检测出来的舆情话题中识别热点并加以分析是舆情热点话题研究的重点。基于热点话题的演变规律,本文将热点话题分为常发性和偶发性。针对常发性热点话题,构建了带时间约束的热点分析模式。由于目前对舆情热点话题的分析经常只是针对话题本身,很少考虑不同话题之间的顺序关系和因果关系,本文提出对网络舆情热点话题进行时态关联分析,从实际需求出发,对有关概念和算法应用进行了研究。在此基础上,本文以2015年7月至2015年10月的房地产行业舆情热点话题分析为案例,以舆情语料的时间标签模拟网络流式数据,运用single-pass增量聚类对舆情信息进行了整理分类。针对其中报道数量较多的话题类,运用加权关联规则进行话题表示,并以其中一个话题为例模拟了热点跟踪过程,发现了该话题在不同时期的热点主题的演变过程。然后对获取的舆情热点话题序列进行时态关联规则挖掘,量化话题间的时态关联关系,描述了舆情话题间的带动作用和滞后影响,进一步验证了本文方法在网络舆情热点话题分析中的合理性和可行性。