论文部分内容阅读
随着互联网的快速发展,论坛成为当前兴起的互联网媒体之一,正是因为论坛的共享性、即时性、交互性等特点,成为大量用户的网络聚集地,因此论坛成为获取信息的主要渠道之一。用户可以发表一个主题来讨论、提出一个问题来解决、针对社会焦点话题提出自己的观点,因此也逐渐成为广大用户共享信息、浏览信息和发表观点的平台。但是论坛每天产生的信息量巨大,传播速度较快,导致形成的话题较多,在这种情况下,怎样快速的浏览当前热点话题,来迅速了解当前社会关注焦点就显得非常有意义。本文首先从论坛数据的采集着手,论坛的网页链接的重复性、分页链接的难以识别、队列与数据库的设计、多线程等问题进行了研究,将提取的文本数据存放在数据库中,作为本文实验的数据来源。其次,在采集的基础上,对热点话题发现进行了研究。针对论坛帖子数据的特殊性和传统的VSM仅用一个向量来描述整个文本信息的不足,本文提出了多向量维度策略,具体思想就是把一篇文本按照时间、地点、人物、事件分为四个子向量,对其四个子向量采用各自的计算方法分别计算相似度值,再对这四个相似度值采用加权平均的方法得出最终的相似度值。最后通过与传统的VSM进行对比,证明了该算法的精确性。在话题检测方面,针对论坛数据是按照时间的顺序进行每天的叠加和更新,本文提出了在时间维度上采用二次聚类的方法来检测话题,具体思想是先对当天同一时间维度上的帖子数据做一次局部聚类形成临时话题集。若没有旧话题集,则将这一次的结果保存等待下一次的聚类;若有旧话题集,则与旧话题集再做一次聚类,重复训练数据,得到最终的话题集合。考虑到Single-Pass算法无需在动态数据源下提前确定话题的数目,而是根据相似度阈值来自动生成类簇的优点,本文采用的是S ing le-Pass聚类。最后通过实验证明了提出的算法思想的合理性。最后,在话题趋势预测上,采用时间序列ARIMA模型来进行拟合,对话题的某些指标进行了预测分析。首先通过介绍ARIMA模型,针对该模型的优点分别给出建模步骤、模型的识别以及参数的估计、检验模型的正确性、利用模型进行预测。通过对时间序列的统计特征进行ADF检验其平稳性,根据自相关和偏自相关函数图确定各自的阶数,最后给出模型,并用残差序列图验证了拟合程度的正确性。通过对比模型产生的预测值与实际值,给出了热点话题在特定的时间内的变化趋势。