论文部分内容阅读
网络舆情是网民对于各种事件的刺激而产生,并通过互联网传播的人们对于该事件的所有态度、认知、情感和行为倾向的集合。某件事在网络上引起网民的广泛关注成为热点话题,是转化为网络舆情的必经阶段。因此,关于热点话题发现的研究在网络舆情分析中的应用显得尤为重要。本文的热点话题发现算法主要由两个部分组成主要包括:话题发现和热点评估。其中话题发现算法是对经典single-pass增量聚类算法进行改进,改进点包括两个方面,一是区别传统的文本相似度计算,以文本的语义相关度计算作为话题聚类标准,提高话题发现的准确性。语义相关度计算方法步骤:首先通过选取语料库对PLSA模型进行训练得到相关性矩阵,然后计算词汇与文本间的相关度,计算文本与文本之间的相关度以达到相关度的计算目的。第二点改进是阈值的选取方法,由于话题类别不同对应的话题物理分布呈现出不同的特点,故区别于传统的随机取值,本文通过选择特定领域新闻文本预语料对PLSA模型,以步进式训练方法得到该领域话题聚类的阈值取值范围,将提高算法的领域性。热点评估是将发现的话题进行热度计算,通过计算得出话题的热度情况,并以该热度为标准有序的呈现话题情况。最后,设计并实现基于教育新闻网站(网易教育新闻和新浪教育新闻)的在线热点话题发现系统,以检验热点话题发现算法在舆情系统中的实际应用效果。系统的功能为抓取新闻网页信息并进行热点话题发现,系统主要的核心模块为热点话题发现模块、Web页面数据预处理模块、信息采集模块和热点话题显示模块。