论文部分内容阅读
在这个信息爆炸的时代,互联网提供给人们越来越多的新闻信息,面对如此浩瀚的网络新闻,人们需要通过一定的手段从海量的数据中获取有用的信息。如何检测、跟踪及分析热点话题,成为了人们迫切的需求和研究人员研究的热点。本文研究了在网络舆情中进行话题检测与话题趋势分析与预测的几个关键问题,主要的研究工作和创新点概括如下:(1)使用一种基于多向量空间的报道及话题表示模型和相似度计算方法,结合多层聚类算法进行话题检测,该方法能够发挥人物、地点等信息区分不同话题的优点,同时能够利用报道的时间聚集特性。实验表明,基于多向量的聚类算法在准确率和召回率上都有提高,基于多层聚类的话题检测算法能够检测当日话题,并在大语料库中提高话题检测的效率。(2)先是对衡量话题热度的多种指标进行定义,包括相关报道数量及比重、来源网站数量及比重、报道离散度和相似度,然后对多种指标进行组合计算得到话题的能量值,以此来度量话题的热度。实验表明,由该方法计算得到的话题能量值能够反映话题热度的变化情况。(3)提出一种基于话题能量的热点话题发现算法,结合基于多层聚类的话题检测算法,该方法能够发现当日热点话题。与百度指数的对照实验表明,使用该方法检测到的热点话题与百度指数展示的热点话题有较高的一致性。(4)使用多粒度融合分析的方法对热点话题的趋势指标进行分析和预测。首先对多个粒度下的样本数据构建最优回归模型,并计算各粒度下的趋势斜率,然后对不同粒度下的趋势斜率进行融合得到预测点的趋势。在真实语料上的实验结果表明该方法对话题前期和后期趋势的预测值与实际数据的绝对误差较小,可以在一定程度上辅助人工决策。本文的热点话题发现与话题趋势分析与预测算法不仅能够及时准确地发现热点舆情信息,而且提供了对热点信息的趋势分析及预测功能,对网络舆情监控以及舆情引导都有重要作用和意义。