基于论坛的热点话题识别与趋势预测研究

被引量 : 0次 | 上传用户:libingyao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,论坛成为当前兴起的互联网媒体之一,正是因为论坛的共享性、即时性、交互性等特点,成为大量用户的网络聚集地,因此论坛成为获取信息的主要渠道之一。用户可以发表一个主题来讨论、提出一个问题来解决、针对社会焦点话题提出自己的观点,因此也逐渐成为广大用户共享信息、浏览信息和发表观点的平台。但是论坛每天产生的信息量巨大,传播速度较快,导致形成的话题较多,在这种情况下,怎样快速的浏览当前热点话题,来迅速了解当前社会关注焦点就显得非常有意义。本文首先从论坛数据的采集着手,论坛的网页链接的重复性、分页链接的难以识别、队列与数据库的设计、多线程等问题进行了研究,将提取的文本数据存放在数据库中,作为本文实验的数据来源。其次,在采集的基础上,对热点话题发现进行了研究。针对论坛帖子数据的特殊性和传统的VSM仅用一个向量来描述整个文本信息的不足,本文提出了多向量维度策略,具体思想就是把一篇文本按照时间、地点、人物、事件分为四个子向量,对其四个子向量采用各自的计算方法分别计算相似度值,再对这四个相似度值采用加权平均的方法得出最终的相似度值。最后通过与传统的VSM进行对比,证明了该算法的精确性。在话题检测方面,针对论坛数据是按照时间的顺序进行每天的叠加和更新,本文提出了在时间维度上采用二次聚类的方法来检测话题,具体思想是先对当天同一时间维度上的帖子数据做一次局部聚类形成临时话题集。若没有旧话题集,则将这一次的结果保存等待下一次的聚类;若有旧话题集,则与旧话题集再做一次聚类,重复训练数据,得到最终的话题集合。考虑到Single-Pass算法无需在动态数据源下提前确定话题的数目,而是根据相似度阈值来自动生成类簇的优点,本文采用的是S ing le-Pass聚类。最后通过实验证明了提出的算法思想的合理性。最后,在话题趋势预测上,采用时间序列ARIMA模型来进行拟合,对话题的某些指标进行了预测分析。首先通过介绍ARIMA模型,针对该模型的优点分别给出建模步骤、模型的识别以及参数的估计、检验模型的正确性、利用模型进行预测。通过对时间序列的统计特征进行ADF检验其平稳性,根据自相关和偏自相关函数图确定各自的阶数,最后给出模型,并用残差序列图验证了拟合程度的正确性。通过对比模型产生的预测值与实际值,给出了热点话题在特定的时间内的变化趋势。
其他文献
学校教育与家庭乃至社会教育的沟通与互动是整合教育资源的应有之义。本文从传统家、校沟通模式的不足出发,提出了构建以互联网和手机短信平台相结合的家校互动信息化平台的
<正>少先队活动课是将少先队活动以"课"的形式落实到课表中,保证少先队活动课的常态化。习近平总书记在2014年"六一"前的重要讲话中提出,要将社会主义核心价值观教育融入到少
<正> 神经系统损害是心内直视手术后常见的并发症之一,尽管多年来在手术技巧、器械设备、灌注方法等方面有了很大改进,此种并发症仍屡见发生。本文拟着重就其病因病理等方面
大肠癌遗传易感性与单核苷酸多态性(SNP)的关系是近年来研究的热点。研究发现COX2,MTHFR等代谢相关基因的某些SNP与大肠癌的发病风险相关,其中携带COX2 9850G-10335A单倍型的
本文报告了一项高中英语经验教师和新手教师课堂提问的个案实证研究。研究对象为广东某高中的一位有五年教龄的经验教师和一位刚入职的新手教师。通过观察她们所教的同一单元
约翰·塞巴斯蒂安·巴赫(1685—1 750)是十八世纪巴洛克时期最伟大的音乐家,集文艺复兴时期音乐发展之大成。他信仰宗教,将宗教音乐当作自己创作的核心,同时又受新思潮的影响
随着海上油气勘探工作的深入发展,“三低”油气层、中深层油气、隐蔽油气藏、天然气勘探都是未来的勘探重点,这些勘探目标地质条件多变、储层物性及油气水关系更为复杂;复杂
小米糠油是从谷糠中提取精炼而成的一种植物油脂,其中含有丰富的不饱和脂肪酸、维生素E、谷维素、植物甾醇等多种生物活性物质。目前,国内外对大米糠油研究较多,对小米糠油的
灵渠和都江堰是我国古代水利科学的智慧结晶和杰出代表,其开凿年代相近,结构形制相似,分沙泄洪原理相同,具有一定的相似性。但两相比较,又各具特色。二者匠心独运的设计理念
论审计假设的理论意义和实践意义谢荣假设是人们在实践工作中归纳总结出来的、但目前还无法对其本身从逻辑上加以证明的对某一客观事物基本特征的理性化的感性认识。假设在实